¿Cómo funciona realmente ChatGPT? OpenAI nos muestra las tripas de su chatbot de IA

El enfoque del desarrollador de ChatGPT, OpenAI, para crear inteligencia artificial (IA) ha sido criticado esta semana por exempleados que acusan a la compañía de asumir riesgos innecesarios con una tecnología que podría llegar a ser perjudicial.

Hoy, OpenAI publicó un nuevo documento de investigación aparentemente destinado a demostrar que se toma en serio la lucha contra los riesgos de la IA haciendo que sus modelos sean más explicables. En el material, los investigadores de la empresa exponen una forma de examinar el modelo de IA que impulsa ChatGPT de forma más profunda. Idearon un método para identificar cómo almacena el modelo determinados conceptos, incluidos los que harían que un sistema de IA presentara un comportamiento indebido.


Logotipo de OpenAI mostrado en la pantalla de un teléfono inteligente

Empleados de OpenAI alertan sobre la cultura de riesgo y represalias dentro de la empresaUna carta abierta firmada por empleados antiguos y actuales de OpenAI y otras gigantes de la IA reclama protecciones para los denunciantes a medida que la inteligencia artificial evoluciona rápidamente.


Una mirada al interior de ChatGPT

Aunque la investigación hace más visible el trabajo de OpenAI para mantener la IA bajo control, también subraya el reciente desorden en la empresa. Fue realizada por el equipo de “superalineación” de OpenAI, que acaba de disolverse y que se dedicaba a estudiar los riesgos de la tecnología a largo plazo.

Ilya Sutskever y Jan Leike, que ya dejaron OpenAI, son los coautores del antiguo grupo. Sutskever, cofundador de OpenAI y anteriormente científico en jefe, se encontraba entre los miembros del consejo que votaron a favor de despedir al CEO Sam Altman el pasado noviembre, desencadenando unos días caóticos que culminaron con el regreso de Altman como líder.

ChatGPT funciona con una familia de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) conocidos como GPT, que se basan en un enfoque del aprendizaje automático conocido como redes neuronales artificiales. Estas redes matemáticas han demostrado una gran capacidad para aprender tareas útiles analizando datos de muestra, pero su funcionamiento no puede examinarse fácilmente como el de los programas informáticos convencionales. La compleja interacción entre las capas de “neuronas” de una red neuronal artificial dificulta enormemente la ingeniería inversa que explica por qué un sistema como ChatGPT ha dado una respuesta determinada.

“A diferencia de lo que ocurre con la mayoría de las creaciones humanas, no comprendemos realmente el funcionamiento interno de las redes neuronales”, escribieron los investigadores responsables del trabajo en un post del blog que acompaña al artículo. Algunos investigadores destacados de IA consideran que los modelos de IA más potentes, incluido ChatGPT, podrían utilizarse para diseñar armas químicas o biológicas y coordinar ciberataques. Una preocupación a más largo plazo es que los modelos de IA opten por ocultar información o actuar de forma perjudicial para conseguir sus objetivos.

El nuevo documento de OpenAI esboza una técnica que reduce un poco el misterio, al identificar patrones que representan conceptos específicos dentro de un sistema de aprendizaje automático con ayuda de un modelo adicional de aprendizaje automático. La innovación clave consiste en depurar la red empleada para observar el interior del sistema de interés mediante el reconocimiento de conceptos, para hacerla más eficiente.

OpenAI probó el enfoque detectando patrones que representan conceptos dentro de GPT-4, uno de sus principales modelos de IA. La empresa publicó el código relacionado con el trabajo de interpretación, así como una herramienta de visualización que sirve para conocer el modo en que las palabras de distintas frases activan los conceptos, incluidas las groserías y el contenido erótico, en GPT-4 y en otro modelo. Saber cómo representa un modelo determinados conceptos sería un paso importante para reducir los asociados a comportamientos no deseados, a fin de mantener un sistema de IA dentro de los límites admisibles. También permitiría ajustar un sistema de IA para favorecer determinados temas o ideas.https://7cc72bd426369e6178e0d8757233d515.safeframe.googlesyndication.com/safeframe/1-0-40/html/container.htmlLO MÁS VISTO

PUBLICIDAD

Aunque los LLM se resisten a ser interrogados fácilmente, cada vez hay más investigaciones que sugieren que se puede hurgar en ellos de forma que revelen información útil. Anthropic, un competidor de OpenAI respaldado por Amazon y Google, publicó el mes pasado un trabajo similar sobre la interpretación de la IA. Para demostrar cómo era posible ajustar el comportamiento de los sistemas de IA, los investigadores de la compañía crearon un chatbot obsesionado con el puente Golden Gate de San Francisco. Y pedirle simplemente a un LLM que explique su razonamiento a veces aporta algunas ideas.

“Es un progreso emocionante”, señala David Bau, profesor de la Universidad Northeastern que trabaja en la forma de explicar la IA, sobre la nueva investigación de OpenAI. “Como campo, tenemos que aprender a comprender y escudriñar mucho mejor estos grandes modelos”.

Bau comenta que la principal innovación del equipo de OpenAI consiste en mostrar una forma más eficaz de configurar una pequeña red neuronal que puede usarse para comprender los componentes de otra mayor. Pero también señala que hay que perfeccionar la técnica para hacerla más fiable. “Todavía queda mucho trabajo por delante para utilizar estos métodos para generar explicaciones totalmente comprensibles”, afirma Bau.

Bau forma parte de una iniciativa financiada por el Gobierno de Estados Unidos llamada National Deep Inference Fabric, que facilitará recursos informáticos en la nube a los investigadores académicos para que ellos también prueben modelos de IA particularmente potentes. “Tenemos que averiguar cómo permitir que los científicos realicen esta labor aunque no trabajen en estas empresas de gran tamaño”, resalta.

Los investigadores de OpenAI reconocen en su artículo que hay que seguir investigando para mejorar su método, pero también aclaran que esperan que conduzca a formas prácticas de controlar los modelos de IA. “Esperamos que algún día la capacidad de interpretación nos ofrezca nuevas maneras de razonar sobre la seguridad y la solidez de los modelos, y que aumente significativamente nuestra confianza en los sistemas de inteligencia artificial potentes, proporcionando garantías sólidas sobre su comportamiento”, detallan.

Artículo publicado originalmente en WIRED. Adaptado por Andrei Osornio.


Light trails moving inside of black box on pedestal in front of a blue backdrop

Anthropic ha descubierto cómo asomarse a lo más profundo de la IALo que ocurre en el trabajo de las redes neuronales artificiales es en gran medida un misterio, incluso para sus creadores. Pero los investigadores de Anthropic han logrado vislumbrarlo.https://7cc72bd426369e6178e0d8757233d515.safeframe.googlesyndication.com/safeframe/1-0-40/html/container.html

Fuente: Wired

Sea el primero en comentar en "¿Cómo funciona realmente ChatGPT? OpenAI nos muestra las tripas de su chatbot de IA"

Deje un comentario

Su email no será publicado


*