Modelos de mundo
Modelos de mundo
Viernes, 23 de Enero 2026, 11:57h
Tiempo de lectura: 13 min
Puede la inteligencia existir sin un cuerpo? La respuesta ha cambiado radicalmente en apenas unas décadas. Hace no tanto, la contestación inmediata habría sido 'no'. Pero hoy, y sobre todo si eres usuario de ChatGPT, creerás que la respuesta obvia, sin lugar a dudas, es 'sí'. Una máquina puede ser inteligente si atendemos a su enunciado más básico: la capacidad de entender y resolver problemas. Una IA es capaz de eso, sí... pero ¿en qué medida?
En la medida en que el lenguaje lo permite. Los modelos de IA que conocemos hasta ahora son por definición 'modelos de lenguaje', su inteligencia se basa en su capacidad para predecir, mediante un procesamiento gigantesco de datos, qué palabra va después en un texto. Lo que no es poco: el lenguaje es la herramienta más eficaz en el desarrollo de la inteligencia humana y ha logrado que nos impongamos evolutivamente al resto de los seres vivos. Por eso, la IA resulta extraordinariamente eficaz a la hora de ejecutar tareas que requieren inteligencia... o, para ser precisos, un cierto tipo de ella.
Sin embargo, de momento, las máquinas, aunque son inteligentes no lo son tanto como los humanos (los humanos inteligentes, al menos...). Porque hay algo que una máquina no puede hacer: interactuar con el espacio físico, el mundo tridimensional en el que vivimos. No tienen un cuerpo que permita esa experiencia 'vital' y eso hace que su aprendizaje siga siendo limitado –baste ver las dificultades de los coches autónomos–. Y por eso mismo la inteligencia artificial general (IAG) –la que supere a los humanos, tan ansiada por los tecnócratas como temida por el resto– no acaba de materializarse, por mucho que algunos la consideren inminente.
El paso de ChatGPT y otros modelos de lenguaje, abstractos, a los world models (modelos físicos, espaciales) es un avance, pero sigue siendo una zancada a medias. Siguen siendo simulaciones visuales, mapas más sofisticados del territorio. No tienen un cuerpo real que meta los dedos en la arena, que sienta el peso de un vaso, que aprenda física a través de sensaciones táctiles. «Cuando... Leer más
El cerebro no piensa, piensa el cuerpo
Pero la explicación sobre ‘la singularidad de lo vivo’ frente a la IA va un paso más allá. El filósofo Miguel Benasayag plantea el siguiente desafío: «El cerebro no piensa, piensa el cuerpo». Los sistemas algorítmicos replican a las redes neuronales, pero las redes neuronales de nuestro cerebro son solo una parte de lo que conforma nuestra inteligencia. «La máquina opera desde un universal... Leer más
Las plantas deciden... y las tripas también
Desde un punto de vista biológico, el argumento a favor de vincular inteligencia y cuerpo (no únicamente cerebro) se sostiene no solo en que los animales también pueden entender y resolver problemas, sino que también pueden hacerlo las plantas. No tienen un cerebro ni neuronas, pero su inteligencia se define por su capacidad de resolver problemas y adaptarse: pueden ‘oír’ sonidos, ‘recordar’ estímulos pasados,... Leer más
Pero los científicos e informáticos no se rinden en su búsqueda de una IAG. Por eso, una innovadora expresión se ha convertido ya en el nuevo 'mantra' de la vanguardia tecnológica: los world models, 'modelos de mundo' (por oposición a los modelos de lenguaje), la nueva forma de entrenar a las máquinas para que tengan una comprensión más profunda del contexto físico y, en consecuencia, una inteligencia más equiparable a la de los humanos. Las máquinas seguirán sin tener cuerpo, pero ya no se entrenarán solo con lenguaje.
Lo advirtió un peso pesado de la tecnología en septiembre: Richard Sutton, padre del aprendizaje por refuerzo y ganador del Premio Turing en 2024, el Nobel de la informática: ChatGPT tiene los días contados. Y Sutton sabe de lo que habla. Escribió en 2019 un ensayo famoso donde profetizaba el triunfo de ChatGPT, cuatro años antes de que la IA generativa revolucionara el mundo. Lo que Sutton vio venir es que lo que iba a funcionar en inteligencia artificial era darle más potencia de cálculo, más chips, más datos, lo que se ha demostrado un éxito. Pero lo que anuncia ahora es que eso ya no funciona más. «Los modelos de lenguaje natural son un callejón sin salida». Su argumento: estos sistemas solo imitan a la gente, no tienen objetivos reales ni aprenden de la experiencia. Para Sutton, la inteligencia auténtica consiste en lograr metas interactuando con el mundo, no en predecir qué palabra va después en un texto.
Interactuar con el mundo. Esa es la clave. Lo que dicen algunos padrinos de la IA, los que la crearon, es que la industria entera se está equivocando. Que por muchos miles de millones que Meta, Google y OpenAI tiren por el desagüe haciendo los modelos más grandes, nunca van a conseguir IA 'absoluta', la tan ansiada inteligencia artificial general que nos solucionará la vida o nos la complicará para siempre. Porque los modelos no entienden el mundo físico. Solo predicen palabras. Vale que muy bien y que hacen cosas inesperadas que nadie les ha programado específicamente, pero 'viven' en un mundo abstracto. Y que la revolución real, si viene, vendrá por otro lado: modelos de mundo, sistemas que aprenden del espacio 3D, la física, la realidad sucia, caótica y tridimensional.
El concepto promete una IA que no se limita a predecir la siguiente palabra de una frase, sino que comprende la física subyacente, la relación causa-efecto y la dinámica espacial del entorno en el que se desenvuelve.
Dos de los científicos más importantes de la inteligencia artificial han abandonado Meta y DeepMind por esta razón. Y una tercera investigadora, que siempre se mantuvo en la Universidad de Stanford, al margen del mercado, ha montado su propia start-up, valorada en más de 1000 millones de dólares. Los tres tienen el mismo objetivo: demostrar que ChatGPT y todos los modelos de lenguaje natural están acabados. Dos de ellos son literalmente los inventores del aprendizaje profundo moderno, los cerebros (humanos) detrás de todo lo que existe ahora mismo: Yann LeCun y Fei-fei Li. El tercero es un alemán que no conoces, excepto si juegas a Minecraft...
Este científico francés es uno de los tres padrinos de la IA, junto con Geoffrey Hinton y Yoshua Bengio. Durante doce años fue la estrella científica de Meta. Pero en abril Meta la pifió: su IA, Llama 4, salió al mercado y fue una decepción. Zuckerberg entró en modo 'pánico total' y se gastó 14.300 millones de dólares comprando el 49 por ciento de Scale AI, una empresa que básicamente recluta (sin contrato) gente en países pobres para etiquetar datos. Puso al fundador, Alexandr Wang, un chaval de 28 años, como jefe de la nueva división de Superinteligencia. Resultado: LeCun, que tiene 65 años y un Premio Turing en el bolsillo, ahora tenía que reportarle a un niñato.
«Estoy creando una empresa para continuar el programa de investigación de inteligencia artificial avanzada que he estado desarrollando durante los últimos años», anunció LeCun en su perfil de LinkedIn en noviembre. «El objetivo es desencadenar la próxima gran revolución en IA: sistemas que entiendan el mundo físico, tengan memoria persistente, puedan razonar y planificar secuencias complejas de acciones».
LeCun llevaba años diciendo públicamente que los modelos actuales son «útiles pero limitados». «Son fabulosos, los usará mucha gente, pero no son un camino hacia la inteligencia de nivel humano... Así que, para la próxima revolución, necesitamos dar un paso atrás y repensar el concepto mismo de inteligencia».
Y pone un ejemplo para ilustrar el problema: si le dices a un humano «imagina un cubo flotando, ahora rótalo 90 grados», tú, yo, tu prima… lo vemos mentalmente al instante y, sin apenas esfuerzo, le damos la vuelta. Sin embargo, ChatGPT puede escribir una descripción perfecta del cubo rotando, puede contar un chiste sobre un cubo flotante, puede producir código para generar una imagen de un cubo 3D. Lo que no puede es entender qué significa rotar un cubo. No tiene razonamiento espacial. Porque no se mueve en un espacio real, sino en un limbo abstracto de datos y textos.
«Los ChatGPT, Claude, Gemini… no entienden el mundo como lo hacen las personas o incluso los animales», explicó LeCun en una cumbre de expertos en IA en París. «No podemos ni siquiera reproducir la inteligencia de un gato o una rata, y no digamos ya de un perro. Ellos pueden realizar hazañas increíbles. Entienden el mundo físico. Cualquier gato doméstico puede planificar acciones muy complejas. Y eso es así porque tienen modelos causales del mundo en sus cabecitas». Es algo innato, instintivo.
Eso sí, Meta será socio de la nueva start-up de LeCun. Y las firmas de capital riesgo se pelean por meterle pasta.
Esta científica es la 'madrina de la IA'. Llegó de China a Nueva Jersey a los 16 años. Sus padres montaron una tintorería y ella no solo trabajaba allí mientras estudiaba. «Siempre bromeo diciendo que era la CEO», cuenta Li en Bloomberg. Durante siete años, desde los 18 hasta mitad del doctorado, dirigió la empresa familiar porque era la única que había aprendido a hablar inglés. Luego, Princeton, Caltech... Cuando Li empezó su doctorado a principios de los 2000, los bancos de datos de imágenes tenían entre cuatro y seis clases de objetos. En 2006 creó ImageNet, la base de datos que hizo posible toda la revolución del aprendizaje profundo: 22.000 clases de objetos y 15 millones de imágenes anotadas. Y eso que el término big data ni siquiera existía entonces. Una vez asentada como profesora en Stanford, siempre rechazó irse a Google, Meta o cualquier otro gigante tecnológico.
Pero hace un año montó World Labs. En noviembre lanzaron su primer producto, Marble, que genera mundos 3D completos donde puedes moverte desde una sola imagen. Puedes darle una foto de tu salón y te crea todo el espacio en 3D para que puedas explorarlo en realidad virtual.
Su argumento es muy similar al de LeCun: que estos modelos de lenguaje pueden 'conversar', pero no pueden 'hacer'. «Si queremos hacer avanzar a la IA más allá de sus capacidades actuales, queremos más que una IA que pueda ver y hablar. Queremos una IA que pueda actuar», explicó en una charla TED. La inteligencia real viene de entender el espacio, poder simular mentalmente cómo funciona el mundo. Como los bebés, que aprenden física tirando cosas al suelo antes incluso de aprender a hablar.
A un bebé le bastan dos meses para aprender a atrapar una pelota, o sea, para construir en su memoria (lo que algunos llaman 'la memoria de lo vivo') la trayectoria anticipada de un objeto; si no la anticipa con un gesto, no podrá atraparla. Y todo ello lo hace sin tener todavía lenguaje. Pero lo sabe, porque «la memoria de la vida y de la acción pasada es interpretada durante su experiencia».
Danijar Hafner no te sonará, a no ser que seas muy geek. Es el creador de la serie Dreamer, que son modelos de mundo para robótica. Pasó diez años en Google/DeepMind, la empresa de AlphaGo y AlphaFold, que dirige el premio Nobel Demis Hassabis... la cumbre mundial de la IA que aprende sola, sin reglas ni instrucciones.
Dreamer 4 salió al mercado en septiembre y aquí viene lo bueno: es el primer agente de IA que consiguió diamantes en Minecraft. Y no necesitó entrenarse jugando. ¿Te parece poca cosa? Eso es que no has jugado a Minecraft. Conseguir diamantes requiere unas 20.000 acciones consecutivas correctas: recoger madera, hacer herramientas, picar piedra, bajar a las minas, encontrar hierro, hacer mejores herramientas, bajar más, esquivar lava, encontrar diamantes... Es una cadena larguísima de decisiones que puede llevar horas, días… Dreamer 4 aprendió todo eso viendo vídeos pregrabados de otra gente jugando. Construyó un modelo mental interno de cómo funciona Minecraft –el entorno, los objetos, las relaciones espaciales– y 'practicó' en su imaginación. Cuando lo pusieron a jugar de verdad por primera vez, fue directo a por los diamantes. «Dreamer 4 es el primer agente en obtener diamantes en Minecraft puramente a partir de vídeos grabados, sin tocar el juego –explican Hafner y sus colegas–. Nuestro trabajo proporciona una receta escalable para el entrenamiento por imaginación». Eso, si aceptamos que una máquina pueda tener imaginación, que de momento es como aceptar 'pulpo como animal de compañía'.
«La meta es que la IA entienda su entorno físico y también mejore con el tiempo sin que un humano tenga que decirle exactamente qué hacer», añade. Esto es clave para robótica porque no puedes entrenar robots rompiendo mil cosas en el mundo real; es carísimo, peligroso y lento. Pero si pueden aprender viendo vídeos y practicando mentalmente... ahí cambia todo. Robots humanoides, coches autónomos, drones... todo lo que necesita entender el mundo físico.
«Las asombrosas valoraciones actuales de la IA se basan en parte en la suposición de que los modelos de lenguaje como ChatGPT y similares son la principal opción disponible», escribe Gillian Tett en el Financial Times. Pero hay dos riesgos que nadie está midiendo bien. Primero, que modelos más eficientes como DeepSeek (una alternativa china) demuestren que no hace falta gastarse miles de millones en chips, convirtiendo la infraestructura actual en un desperdicio. Segundo, y más inquietante: que los world models no sean solo 'como ChatGPT, pero mejor', sino una arquitectura completamente distinta que requiera otro tipo de hardware, otros chips, otra forma de procesar datos. Los chips de IA pueden tener una vida útil más corta que las vías del tren del siglo XIX o los cables de fibra óptica de la burbuja puntocom. Si el paradigma cambia en cinco años, toda esa inversión de capital podría quedar obsoleta antes de amortizarse.