IA revolucionaria: Google presenta Project Genie, un modelo que genera entornos interactivos a partir de imágenes o texto, marcando un hito en la comprensión espacial de la inteligencia artificial.
Project Genie, un modelo experimental de Google lanzado en enero, permite crear simulaciones realistas con solo una imagen o descripción. Por ejemplo, a partir de un cuadro de Georges Seurat, el sistema recrea un parque puntillista donde el usuario puede explorar libremente. Aunque parece un videojuego, sus desarrolladores lo definen como un «modelo del mundo», esencial para que futuras IA operen en entornos físicos complejos, como robots cocinando o autos autónomos en carreteras rurales.
La idea no es nueva. En 1943, el psicólogo Kenneth Craik propuso que los seres vivos usan una «maqueta mental» del mundo para planificar acciones, en lugar de reaccionar solo por instinto. Sin esta capacidad, la IA quedaría limitada a respuestas básicas, sin anticipar consecuencias.
Tres estrategias para modelar el mundo
Actualmente, existen tres enfoques principales para desarrollar modelos del mundo en IA:
- Generadores de video: Crean secuencias coherentes que simulan entornos estables. Por ejemplo, ante un laberinto, trazan rutas lógicas, o calculan movimientos para abrir un frasco. Project Genie es el ejemplo más avanzado de esta línea, permitiendo entrenar robots en simulaciones antes de interactuar con objetos reales.
- Entornos 3D: Fei-Fei Li, de Stanford, lidera la inteligencia espacial con modelos como Marble, que generan mundos tridimensionales completos y consistentes. A diferencia de los basados en video, estos entornos no se descomponen y permiten interacción simultánea de múltiples usuarios, útil para arquitectos que exploran diseños antes de construirlos.
- Modelos abstractos: Yann LeCun, exdirector de IA en Meta, propone la Arquitectura Predictiva de Integración Conjunta (JEPA), que simula tanto entornos físicos como digitales. Su objetivo es que las IA anticipen eventos lejanos, como humanos al decidir si llevar paraguas. Su startup, Advanced Machine Intelligence, colabora con Nabla para desarrollar sistemas que determinen «la secuencia óptima de acciones» ante una tarea.
¿Ya tienen las IA un modelo del mundo?
Algunos expertos, como Ilya Sutskever (OpenAI), argumentan que los grandes modelos de lenguaje (LLM) ya contienen un modelo del mundo inherente. En 2023, declaró que entrenar un LLM equivale a «aprender un modelo del mundo», ya que comprimir datos masivos requiere entender principios subyacentes. Pruebas respaldan esta idea: un LLM entrenado solo con movimientos de Othello representó internamente el tablero, sin conocer las reglas.
Anthropic, creador de Claude, descubrió neuronas que codifican conceptos como culpa o el puente Golden Gate. Modificarlas altera el comportamiento del modelo, sugiriendo que no solo procesan palabras, sino que apelan a una comprensión coherente del entorno.
Sin embargo, no todos están convencidos. Fei-Fei Li critica que los LLM son «máquinas de palabras a ciegas»: pueden describir un país, pero no lo comprenden como quien lo ha vivido. La brecha entre simulación y realidad sigue abierta, pero la IA avanza hacia una interacción más profunda con el mundo físico.








