Google DeepMind ha lanzado SIMA 2 para probar hasta dónde pueden llegar los agentes encarnados generalistas dentro de complejos mundos de juegos en 3D. La nueva versión de SIMA (Scalable Instructable Multiworld Agent) actualiza el seguidor de instrucciones original a un sistema impulsado por Gemini que razona sobre objetivos, explica sus planes y mejora el juego autónomo en muchos entornos diferentes.
De SIMA 1 a SIMA 2
El primer SIMA, lanzado en 2024, aprendió más de 600 idiomas siguiendo habilidades como “girar a la izquierda”, “subir la escalera” y “abrir el mapa”. Controlaba juegos comerciales sólo desde píxeles renderizados y un teclado y mouse virtuales, sin ningún acceso a las partes internas del juego. En tareas complejas, DeepMind informó una tasa de éxito de SIMA 1 de alrededor del 31 por ciento, mientras que los jugadores humanos alcanzaron alrededor del 71 por ciento en el mismo punto de referencia.
SIMA 2 mantiene la misma interfaz incorporada pero reemplaza la política central con un modelo Gemini. Según un artículo de TechCrunch, el sistema utiliza Gemini 2.5 Flash Lite como motor de razonamiento. Esto convierte a SIMA de un mapeo directo entre píxeles y acciones a un agente que forma un plan interno, razona en el lenguaje y luego ejecuta la secuencia de acción necesaria en el juego. DeepMind describe esto como pasar de ser un seguidor de instrucciones a un compañero de juego interactivo que colabora con el jugador.
Arquitectura, Géminis en el circuito de control.
La arquitectura SIMA 2 integra Gemini como núcleo de agente. El modelo recibe observaciones visuales e instrucciones del usuario, infiere un objetivo de alto nivel y produce acciones que se envían a través de la interfaz virtual del teclado y el mouse. La capacitación utiliza una combinación de videos de demostración humana con etiquetas de idioma y etiquetas generadas por el propio Gemini. Esta supervisión permite al agente alinear su razonamiento interno tanto con la intención humana como con las descripciones de comportamiento generadas por el modelo.
Gracias a este esquema de formación, SIMA 2 puede explicar lo que pretende hacer y enumerar los pasos que seguirá. En la práctica, esto significa que el agente puede responder preguntas sobre su objetivo actual, justificar sus decisiones y exponer una cadena de pensamiento interpretable sobre el medio ambiente.
Generalización y desempeño.
El gráfico de finalización de tareas muestra SIMA 1 en aproximadamente el 31 % y SIMA 2 en el 62 % de ese valor en el conjunto de evaluación principal, con humanos alrededor del rango del 70 %. La integración de Gemini duplica el rendimiento del agente original en tareas complejas. Lo importante no es el número exacto, sino la forma: el nuevo agente cierra la mayor parte de la brecha medida entre SIMA 1 y los jugadores humanos en misiones largas y especificadas en el lenguaje de los juegos de entrenamiento.
En juegos como ASKA y MineDojo, que nunca se ven durante el entrenamiento, el equipo de DeepMind muestra un patrón similar. SIMA 2 tiene una finalización de tareas mucho mayor que SIMA 1 en estos entornos, lo que indica una ganancia real en la generalización de tiro cero en lugar de sobreadaptarse a un conjunto de juego fijo. El agente también transfiere conceptos abstractos; por ejemplo, puede reutilizar una comprensión de “minería” en un título cuando se le pide “cosechar” en otro.
Instrucciones multimodales
SIMA 2 extiende el canal de instrucciones más allá del texto plano. Las demostraciones de DeepMind muestran al agente siguiendo comandos hablados, reaccionando a bocetos dibujados en la pantalla y ejecutando tareas a partir de indicaciones que utilizan solo emojis. En un ejemplo, el usuario pide a SIMA 2 que vaya a ‘la casa que es del color de un tomate maduro’. El núcleo de Géminis razona que los tomates maduros son rojos, luego los selecciona y camina hacia la casa roja.
Gemini también permite seguir instrucciones en múltiples lenguajes naturales y admite indicaciones mixtas donde se combinan el lenguaje y las señales visuales. Para la IA física y los desarrolladores de robótica, esta es una pila multimodal concreta, una representación compartida vincula texto, audio, imágenes y acciones en el juego, y el agente usa esta representación para conectar símbolos abstractos en secuencias de control concretas.
Autosuperación a escala
Una de las principales contribuciones de la investigación en SIMA 2 es el ciclo explícito de superación personal. Después de una fase inicial que utiliza el juego humano como base, el equipo lleva al agente a nuevos juegos y le permite aprender solo de su propia experiencia. Un modelo Gemini independiente genera nuevas tareas para el agente en cada mundo y un modelo de recompensa puntúa cada intento.
Estas trayectorias se almacenan en un banco de datos generados por uno mismo. Las generaciones posteriores de SIMA 2 utilizan estos datos durante el entrenamiento, lo que permite al agente tener éxito en tareas en las que las generaciones anteriores fracasaron, sin nuevas demostraciones humanas. Este es un ejemplo concreto de un modelo multitarea en el motor de datos de bucle, donde un modelo de lenguaje especifica objetivos y proporciona retroalimentación, y el agente convierte esa retroalimentación en nuevas políticas competentes.
genio 3 mundos
Para impulsar aún más la generalización, DeepMind combina SIMA 2 con Genie 3, un modelo mundial que genera entornos 3D interactivos a partir de una sola imagen o mensaje de texto. En estos mundos virtuales, el agente tiene que orientarse, analizar instrucciones y actuar para alcanzar objetivos, aunque la geometría y los recursos difieren de los de todos los juegos de entrenamiento.
El comportamiento informado es que SIMA 2 puede navegar por estas escenas de Genie 3, identificar objetos como bancos y árboles y realizar las acciones solicitadas de manera coherente. Esto es importante para los investigadores, ya que muestra que un solo agente puede operar en títulos comerciales y entornos generados, utilizando el mismo núcleo de razonamiento y la misma interfaz de control.
Conclusiones clave
Arquitectura centrada en Gemini: SIMA 2 integra Gemini, reportado como Gemini 2.5 Flash Lite, como el módulo central de razonamiento y planificación, envuelto por una pila de control visomotor que actúa desde píxeles a través de un teclado y mouse virtuales en muchos juegos comerciales. Salto de rendimiento medido sobre SIMA 1: en el conjunto de tareas principal de DeepMind, SIMA 2 aproximadamente duplica la tasa de finalización de tareas del 31 por ciento de SIMA 1 y se acerca al rendimiento a nivel humano en juegos de entrenamiento, al mismo tiempo que ofrece tasas de éxito significativamente más altas en entornos exigentes como ASKA y MineDojo. Seguimiento de instrucciones de composición multimodal: el agente puede seguir instrucciones de composición largas y admite indicaciones multimodales, incluido el habla, bocetos y emojis, al basar el lenguaje y los símbolos en una representación compartida sobre observaciones visuales y acciones de juego. Automejora a través de tareas y recompensas generadas por modelos: SIMA 2 utiliza un maestro basado en Gemini para generar tareas y un modelo de recompensas aprendidas para calificar trayectorias, creando un banco de experiencias en crecimiento que permite a las generaciones posteriores del agente superar a las anteriores sin demostraciones humanas adicionales. Pruebas de estrés con Genie 3 e implicaciones para la robótica: acoplar SIMA 2 con Genie 3, que sintetiza entornos 3D interactivos a partir de imágenes o texto, muestra que el agente puede transferir habilidades a mundos recién generados, respaldando la afirmación de DeepMind de que esta pila es un paso concreto hacia agentes incorporados de propósito general y, eventualmente, robots más capaces en el mundo real.
SIMA 2 es un hito significativo para los sistemas en lugar de una simple victoria en el punto de referencia. Al incorporar un modelo Gemini 2.5 Flash lite recortado en el núcleo, el equipo de DeepMind demuestra una receta práctica que une la percepción multimodal, la planificación basada en el lenguaje y un ciclo de automejora orquestado por Gemini, validado tanto en juegos comerciales como en entornos generados por Genie 3. En general, SIMA 2 muestra cómo una pila Gemini incorporada puede actuar como un precursor realista de agentes robóticos de uso general.
Consulta los detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.