Los 10 mejores modelos de IA física
La brecha entre las capacidades del modelo lingüístico y la implementación robótica se ha reducido considerablemente en los últimos 18 meses. Una nueva clase de modelos básicos (diseñados específicamente no para la generación de texto sino para la acción física) ahora se ejecuta en hardware real en fábricas, almacenes y laboratorios de investigación. Estos sistemas abarcan políticas de robots implementados, VLA de vista previa privada, modelos de investigación de peso abierto y modelos mundiales utilizados para escalar datos de entrenamiento de robots. Algunos se están evaluando o implementando con socios industriales; otros son principalmente sistemas orientados a la investigación o al desarrollador. A continuación se muestra un desglose de los diez que más importarán en 2026.
NVIDIA Isaac GR00T Serie N (N1.5 / N1.6 / N1.7)
NVIDIA lanzó el GR00T N1 original en GTC en marzo de 2025 como el primer modelo básico abierto y totalmente personalizable del mundo para el razonamiento y las habilidades humanoides generalizadas. Desde entonces, la serie N ha avanzado rápidamente. GR00T N1.5, anunciado en COMPUTEX en mayo de 2025, introdujo un VLM congelado, mejoras en la conexión a tierra Eagle 2.5, un objetivo de entrenamiento FLARE que permite aprender a partir de videos del ego humano y el modelo GR00T-Dreams, que redujo la generación de datos sintéticos de meses a aproximadamente 36 horas.
GR00T N1.6 siguió el 15 de diciembre de 2025, con una nueva red troncal interna NVIDIA Cosmos-2B VLM que admite resolución flexible, un DiT 2 veces más grande (32 capas frente a 16 en N1.5), fragmentos de acción relativos al estado para un movimiento más suave y varios miles de horas adicionales de datos de teleoperación de brazos YAM bimanuales, AGIBot Genie-1 y Unitree G1. Fue validado en tareas reales bimanuales y de locomanipulación en esas realizaciones.
La versión más reciente, GR00T N1.7 Early Access (17 de abril de 2026), es un VLA abierto de parámetros 3B con licencia comercial construido sobre una columna vertebral Cosmos-Reason2-2B con un DiT de 32 capas para control de motores de bajo nivel: una arquitectura de sistema dual Action Cascade. Su avance central es EgoScale: capacitación previa en 20,854 horas de video egocéntrico humano que abarca más de 20 categorías de tareas, escalando significativamente más allá de las horas de teleoperación de robots utilizadas en versiones anteriores. NVIDIA identificó lo que describe como la primera ley de escalamiento para la destreza de los robots: pasar de 1.000 a 20.000 horas de datos egocéntricos humanos duplica con creces el promedio de finalización de tareas. N1.7 Early Access está disponible en HuggingFace y GitHub con licencia Apache 2.0, con soporte de producción completo vinculado a la versión de disponibilidad general. Los primeros en adoptar la serie GR00T N incluyen AeiRobot, Foxlink, NEURA Robotics y Lightwheel.
Robótica Google DeepMind Gemini 1.5
Gemini Robotics es un modelo avanzado de visión, lenguaje y acción (VLA) construido sobre Gemini 2.0, con acciones físicas agregadas como una nueva modalidad de salida para controlar directamente los robots. Se lanzó en marzo de 2025 junto con Gemini Robotics-ER (Embodied Reasoning). La actualización de septiembre de 2025, Gemini Robotics 1.5, introdujo capacidades agentes: convertir información visual e instrucciones en comandos motores y al mismo tiempo hacer transparente el proceso de razonamiento del modelo, ayudando a los robots a evaluar y completar tareas complejas de varios pasos de manera más legible.
El acceso sigue estando disponible para socios seleccionados, incluidos Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools, y no está disponible públicamente. La familia más amplia continúa evolucionando: Gemini Robotics-ER 1.6, lanzado el 14 de abril de 2026, mejora el razonamiento espacial y la comprensión de múltiples vistas, incluida una nueva capacidad de lectura de instrumentos desarrollada en colaboración con Boston Dynamics para leer indicadores complejos y mirillas. Gemini Robotics-ER 1.6 está disponible para desarrolladores a través de Gemini API y Google AI Studio.
Inteligencia Física π0 / π0,5 / π0,7
π0 propone una arquitectura de coincidencia de flujo construida sobre un modelo de visión y lenguaje previamente entrenado para heredar conocimiento semántico a escala de Internet, entrenado en múltiples plataformas de robots diestros, incluidos robots de un solo brazo, robots de dos brazos y manipuladores móviles. Inteligencia Física de código abierto π0 en febrero de 2025.
π0.5 se publicó el 22 de abril de 2025, y los pesos de openpi se publicaron más adelante en 2025. En lugar de apuntar a una mejora de la destreza, su enfoque es la generalización del mundo abierto: el modelo utiliza co-entrenamiento en tareas heterogéneas, múltiples robots, predicción semántica de alto nivel y datos web para limpiar cocinas y dormitorios desconocidos que no se ven en el entrenamiento. Una versión posterior aplicó el enfoque RECAP (RL con experiencia y correcciones a través de políticas condicionadas por ventajas): capacitación mediante demostración, capacitación mediante correcciones y mejora a partir de la experiencia autónoma, que Physical Intelligence informó que duplicó el rendimiento en tareas como insertar un filtro en una máquina de café expreso, doblar ropa nunca antes vista y ensamblar una caja de cartón.
La publicación de investigación pública más reciente es π0.7, publicada el 16 de abril de 2026. Es un sistema en etapa de investigación centrado en la generalización compositiva: combinar habilidades aprendidas en diferentes contextos para resolver tareas en las que el modelo nunca fue entrenado explícitamente. Physical Intelligence lo describe como un modelo orientable con capacidades emergentes: un paso temprano pero significativo hacia un cerebro robótico de propósito general. El documento utiliza un cuidadoso lenguaje de cobertura en todo momento y no se ha indicado ningún cronograma de implementación comercial.
Figura AI Helix
Lanzado el 20 de febrero de 2025, Helix es el primer VLA que genera un control continuo y de alta velocidad de toda la parte superior del cuerpo humanoide, incluidas las muñecas, el torso, la cabeza y los dedos individuales. Utiliza un diseño de sistema dual: el Sistema 2 es un VLM previamente entrenado para Internet con parámetros 7B que funciona a 7–9 Hz para la comprensión de escenas y del lenguaje; El Sistema 1 es un transformador codificador-decodificador de atención cruzada de 80M de parámetros que funciona a 200 Hz y traduce las representaciones semánticas de S2 en acciones continuas precisas del robot. El modelo se entrenó con aproximadamente 500 horas de datos teleoperados por múltiples robots y múltiples operadores, con etiquetado automático de instrucciones a través de un VLM aplicado en retrospectiva. Todos los elementos de capacitación están excluidos de las evaluaciones para evitar la contaminación.
Helix se ejecuta completamente integrado en GPU de bajo consumo de energía, lo que lo hace relevante para la investigación de implementación comercial y futuras aplicaciones humanoides. Utiliza un único conjunto de pesos de red neuronal para todos los comportamientos (recoger y colocar artículos, usar cajones y refrigeradores e interacción entre robots) sin ningún ajuste específico de la tarea. Se ha demostrado en tareas de manipulación doméstica y clasificación de paquetes logísticos, y puede operar simultáneamente en dos robots a través de una arquitectura de supervisión que descompone los objetivos generales en subtareas por robot.
AbiertoVLA
OpenVLA es un VLA de código abierto de 7B parámetros entrenado en una colección diversa de 970.000 demostraciones de robots del mundo real. Se basa en un modelo de lenguaje Llama 2 combinado con un codificador visual que fusiona funciones previamente entrenadas de DINOv2 y SigLIP. A pesar de ser 7 veces más pequeño, OpenVLA supera al RT-2-X cerrado (parámetros 55B) en 16,5 puntos porcentuales en la tasa absoluta de éxito de tareas en 29 tareas y múltiples realizaciones de robots.
Un artículo de febrero de 2025 presentó la receta OFT (Optimized Fine-Tuning), que combina decodificación paralela, fragmentación de acciones, una representación de acción continua y un objetivo de regresión L1. OFT ofrece una velocidad de inferencia entre 25 y 50 veces más rápida y logra una tasa de éxito promedio del 97,1 % en el punto de referencia de simulación LIBERO, superando a π0, Octo y Diffusion Policy. Una versión aumentada, OFT+, agrega acondicionamiento FiLM para una mejor comprensión del lenguaje y permite el control bimanual de alta frecuencia en el robot ALOHA. OpenVLA admite el ajuste fino y la cuantificación de LoRA para una implementación con recursos limitados, y existen contenedores comunitarios ROS 2 para la integración con sistemas operativos de robots.
octo
Octo es un robot generalista de código abierto de UC Berkeley, disponible en dos tamaños: Octo-Small (27 millones de parámetros) y Octo-Base (93 millones de parámetros). Ambos utilizan una columna vertebral transformadora con decodificación de difusión, previamente entrenada en 800.000 episodios de robots del conjunto de datos Open X-Embodiment en 25 conjuntos de datos. El modelo admite instrucciones en lenguaje natural y acondicionamiento de imágenes de objetivos, y se adapta a espacios flexibles de observación y acción que incluyen nuevos sensores y representaciones de acción sin cambios arquitectónicos.
Octo fue diseñado específicamente para permitir un ajuste eficiente de nuevas configuraciones de robots. En la evaluación oficial, cada tarea utiliza aproximadamente 100 demostraciones de dominio objetivo, y Octo supera la capacitación desde cero en un promedio del 52 % en seis configuraciones de evaluación que abarcan instituciones como CMU, Stanford y UC Berkeley. Tiene un rendimiento comparable al RT-2-X (parámetros 55B) en configuraciones de disparo cero, aunque es mucho más pequeño. Octo es principalmente una herramienta de investigación y desarrollo, y es un punto de partida sólido y liviano para los laboratorios que necesitan iterar rápidamente en nuevas tareas de manipulación con computación limitada.
AGIBOT BFM y GCFM
En abril de 2026, AGIBOT, con sede en Shanghai, anunció dos modelos básicos como parte de su arquitectura de pila completa “Un cuerpo robótico, tres inteligencias”. El Behavioral Foundation Model (BFM) se basa en la imitación y la transferencia de comportamiento, diseñado para adquirir nuevos comportamientos de movimiento de manera eficiente a partir de demostraciones. El modelo básico de control generativo (GCFM) se basa en la generación de movimientos de robots conscientes del contexto a partir de entradas multimodales que incluyen texto, audio y video.
AGIBOT posiciona AGIBOT WORLD 2026 como parte de la base de datos para su pila de robótica más amplia: un conjunto de datos del mundo real de código abierto y de grado de producción que abarca espacios comerciales, hogares y escenarios cotidianos. La compañía declaró 2026 su “primer año de implementación” en su conferencia de socios de abril de 2026 y anunció el lanzamiento de su robot número 10.000 en marzo de 2026.
Robótica Gemini en el dispositivo
Gemini Robotics On-Device es un modelo VLA para robots de dos brazos diseñado para ejecutarse localmente en el propio robot con inferencia de baja latencia, sin requerir una conexión de red de datos. Lanzado en junio de 2025, es el primer modelo VLA que Google DeepMind pone a disposición para su ajuste. Se basa en las capacidades de generalización de tareas y destreza del modelo Gemini Robotics basado en la nube, optimizado para la ejecución en el dispositivo donde se aplican restricciones de latencia o conectividad. El modelo fue entrenado principalmente en robots ALOHA y se ha adaptado a un Franka FR3 de dos brazos y al humanoide Apollo de Apptronik. Se adapta a nuevas tareas con tan solo 50 a 100 demostraciones. Actualmente, la disponibilidad se realiza a través de evaluadores confiables seleccionados, no de un lanzamiento público general.
Modelos de la Fundación NVIDIA Cosmos World
Cosmos no es un modelo de política robótica en el sentido convencional: es un modelo mundial generativo que produce datos de trayectoria sintéticos para escalar los canales de entrenamiento para otros modelos de esta lista. El modelo GR00T-Dreams utiliza Cosmos para generar grandes cantidades de datos de trayectoria sintéticos a partir de una única imagen e instrucción de lenguaje, lo que permite a los robots aprender nuevas tareas en entornos desconocidos sin requerir datos de teleoperación específicos. Esto apuntaló directamente el desarrollo de GR00T N1.5. Cosmos Predict 2, la versión utilizada en GR00T-Dreams, está disponible en HuggingFace con mejoras de rendimiento para generación de mundos de alta calidad y reducción de alucinaciones. Empresas como Skild AI y FieldAI están utilizando componentes de simulación Cosmos e Isaac para generar datos de entrenamiento de robots sintéticos y validar el comportamiento de los robots en simulación antes de su implementación en el mundo real.
SmolVLA (HuggingFace LeRobot)
Lanzado el 3 de junio de 2025, SmolVLA es el VLA compacto de 450 millones de parámetros de HuggingFace construido dentro del marco de LeRobot y capacitado completamente con datos de código abierto aportados por la comunidad. Utiliza una columna vertebral de lenguaje de visión SmolVLM-2 combinada con un experto en acción de transformador de coincidencia de flujo, generando acciones continuas en lugar de tokens discretizados, la misma representación de acción utilizada por π0 y GR00T N1. Fue entrenado previamente en 10 millones de fotogramas seleccionados de 487 conjuntos de datos comunitarios etiquetados como “lerobot” en HuggingFace, que abarcan diversos entornos, desde laboratorios hasta salas de estar.
SmolVLA se ejecuta en hardware de consumo, incluidas GPU y MacBooks de clase RTX única. Los puntos de referencia oficiales de ajuste muestran aproximadamente 4 horas en un solo A100 para 20.000 pasos de entrenamiento. En evaluaciones de robots reales que utilizan brazos SO100 y SO101, logra una tasa de éxito promedio de aproximadamente el 78,3% después de un ajuste fino específico de la tarea. Iguala o supera a modelos más grandes como ACT en LIBERO y los puntos de referencia de simulación Meta-World, y admite la inferencia asincrónica para una respuesta un 30 % más rápida y un rendimiento de tareas 2 veces mayor. SmolVLA es el punto de entrada más accesible al ecosistema VLA para equipos con computación limitada.