ChatGPT ya está obsoleto

Matteo Wong

SOCIEDAD

María Pedreda

La nueva generación de inteligencia artificial, que podrá describir imágenes, está dejando atrás al «chatbot» viral que revolucionó el mundo hace seis meses

20 jun 2023 . Actualizado a las 15:34 h.

En la conferencia anual de Google dedicada a nuevos productos y tecnologías que se celebró el 10 de mayo, la empresa anunció un cambio en su principal producto de inteligencia artificial: el chatbot Bard, como el ChatGPT-4 de OpenAI, podrá describir imágenes pronto. Aunque pueda parecer una actualización sin importancia, esta mejora forma parte de una revolución silenciosa en cómo las empresas, los investigadores y los consumidores desarrollan y utilizan la inteligencia artificial, llevando la tecnología no solo más allá de la remezcla del lenguaje escrito y en diferentes medios, sino hacia el gran objetivo de una comprensión más completa del mundo. ChatGPT solo tiene seis meses, y ya ha empezado a parecer obsoleto.

Este programa y sus primos, conocidos como grandes modelos de lenguaje, imitan la inteligencia al predecir qué palabras son estadísticamente más probables de seguirse las unas a otras en una frase. Los investigadores han entrenado estos modelos con cada vez más texto, con la premisa de que alimentar las máquinas con más palabras en diferentes configuraciones dará mejores predicciones y programas más inteligentes. Este enfoque maximalista del texto en el desarrollo de la inteligencia artificial ha sido dominante, especialmente entre los productos corporativos de cara al público, durante años.

Pero los modelos solo de lenguaje, como el primer ChatGPT, están dando paso ahora a máquinas que también pueden procesar imágenes, audio e incluso datos sensoriales de robots. El nuevo enfoque podría reflejar una forma más humana de entender la inteligencia, un intento temprano de aproximarse a cómo aprende un niño al existir y observar el mundo. También podría ayudar a las compañías a construir una inteligencia artificial que pueda hacer más cosas y, por tanto, redundar en más productos.

ChatGPT-4 y Bard no son los únicos programas con estas nuevas habilidades. Meta presentó un programa llamado ImageBind que procesa texto, imágenes, audio e información sobre profundidad, radiación infrarroja, y sobre movimiento y posición. El último modelo de Google, PaLM-E, ha sido entrenado en lenguaje y datos sensoriales de robots, y la empresa ha presentado un modelo nuevo todavía más poderoso que va más allá del texto. Microsoft tiene su propio modelo, que ha entrenado en imágenes y palabras. Los generadores de texto a imagen, como DALL-E2, que cautivó internet el último verano, están entrenados en imágenes subtituladas.

Estos son conocidos como modelos multimodales, el texto es uno y las imágenes, otro, y muchos investigadores esperan que lleven la inteligencia artificial a otras cimas. El mejor de los futuros sería uno en que la inteligencia artificial no esté limitada a redacciones y a ayudar a personas en Slack; sería capaz de buscar en internet sin invenciones, animar un vídeo, guiar a un robot o crear una página web por sí mismo (como hizo ChatGPT-4 en una demostración).

Un enfoque multimodal podría resolver un problema con modelos solo de lenguaje. Aunque puedan unir palabras de forma fluida, tienen problemas para conectarlas a conceptos, ideas, objetos o eventos. «Cuando hablan sobre atascos de tráfico, no tienen más experiencia que la que asocian a otras piezas del lenguaje», señala Melanie Mitchell, una investigadora de inteligencia artificial y científica cognitiva en el Instituto Santa Fe, pero si pueden incluir vídeos de los atascos, «hay mucha más información que pueden presentar». Aprender de más tipos de datos podría ayudar a los modelos de inteligencia artificial a visualizar e interactuar con entornos físicos, desarrollar algo más próximo al sentido común, e incluso abordar problemas con la fabricación. Si un modelo entiende el mundo, podría ser menos probable que invente cosas sobre él.

El impulso por modelos multimodales no es completamente nuevo: Google y Facebook, entre otros, han introducido sistemas automatizados de captación de imágenes subtituladas hace una década. Pero una serie de cambios claves en la investigación de la inteligencia artificial han hecho que los enfoques de dominios sean más posibles y prometedores que en los últimos años, según Jing Yu Koh, que estudia inteligencia artificial multimodal en Carnegie Mellon. Mientras que durante décadas los campos de ciencia computacional, como el procesamiento del lenguaje natural, la visión artificial y la robótica, han utilizado métodos diferentes, ahora todos utilizan un método de programación denominado aprendizaje profundo (deep learning). Como resultado, su código y sus enfoques son mucho más similares, y sus modelos son más fáciles de integrar entre ellos.

Modelos más susceptibles a la manipulación

Todavía permanecemos lejos de algo que pudiese emular cómo piensa la gente. «Si estos modelos van a alcanzar el nivel de inteligencia de los humanos, creo que eso no es posible, dados los tipos de arquitecturas que se utilizan ahora mismo», explica Mitchell. Incluso si un programa como ImageBind de Meta puede procesar imágenes y sonidos, los humanos también aprenden al interactuar entre ellos, tienen memoria a largo plazo y crecen desde la experiencia, y son producto de millones de años de evolución.

Y como volcar más datos textuales a los modelos de inteligencia artificial no solucionó los problemas con los sesgos y la fabricación, volcar más tipos de datos a las máquinas no lo hará necesariamente también. Un programa con texto e imágenes sesgadas seguirá produciendo resultados dañinos, solo que en más medios. La inteligencia artificial multimodal podría ser incluso más susceptible a ciertos tipos de manipulación, como la alteración de píxeles claves en una imagen, que los modelos de solo lenguaje.

Este tipo de programas multimodales podrán ofrecer más a los consumidores que el modelo de ChatGPT simple y solo de texto, como describir imágenes y vídeos, interpretando o incluso llegando a producir diagramas y siendo asistentes personales más útiles.

Las aplicaciones a la robótica, coches inteligentes o a la medicina son fáciles de conjurar, incluso aunque nunca se materialicen. La multimodalidad no necesitará producir máquinas más inteligentes para mantenerse. Solo necesita hacerlas más rentables. 

Matteo Wong es editor de ciencia, tecnología y salud en «The Atlantic». © 2023 The Atlantic. Distribuido por Tribune Content Agency. Traducido por S. P.