La IA generalista presenta GEN-θ: una nueva clase de modelos de base incorporados creados para el entrenamiento multimodal directamente sobre la interacción física sin procesar de alta fidelidad

¿Cómo se construye un modelo único que pueda aprender habilidades físicas a partir de datos caóticos de robots del mundo real sin depender de la simulación? La IA generalista ha presentado GEN-θ, una familia de modelos básicos incorporados entrenados directamente con datos de interacción física sin procesar de alta fidelidad en lugar de videos o simulaciones de Internet. El sistema está diseñado para establecer leyes de escala para la robótica de la misma manera que lo hicieron los grandes modelos de lenguaje para el texto, pero ahora basado en flujos sensoriomotores continuos de robots reales que operan en hogares, almacenes y lugares de trabajo.

Razonamiento Armónico, pensar y actuar en tiempo real

GEN-θ se presenta como una arquitectura de modelo básico incorporado que se basa en las fortalezas de los modelos de visión y lenguaje, y los amplía con soporte nativo para reflejos a nivel humano y sentido común físico. La característica principal es el razonamiento armónico, donde el modelo está entrenado para pensar y actuar al mismo tiempo a través de flujos de tiempo continuos y asincrónicos de tokens de detección y acción.

Este diseño tiene como objetivo una restricción específica de la robótica. Los modelos de lenguaje simplemente pueden dedicar más tiempo a pensar antes de responder, pero los robots deben actuar mientras la física continúa evolucionando. El razonamiento armónico crea una interacción armónica entre los flujos de detección y actuación para que GEN-θ pueda escalar a tamaños de modelo muy grandes sin depender de arquitecturas System1-System2 o controladores de guía de tiempo de inferencia pesada.

GEN-θ es una realización explícitamente cruzada. La misma arquitectura se ejecuta en diferentes robots y ha sido probada en sistemas semihumanoides 6DoF, 7DoF y 16+DoF, lo que permite que una única ejecución previa al entrenamiento sirva a flotas heterogéneas.

Superando el umbral de inteligencia en robótica

El equipo de IA generalista informa una transición de fase en la capacidad a medida que GEN-θ escala en un régimen de datos elevado. Su experimento de investigación de escala también muestra que los modelos deben ser lo suficientemente grandes como para absorber grandes cantidades de datos de interacción física.

Sus comportamientos son los siguientes:

Los modelos 1B luchan por absorber datos sensoriomotores complejos y diversos durante el preentrenamiento y sus pesos dejan de absorber nueva información, lo que el equipo de investigación describe como osificación. Los modelos 6B comienzan a beneficiarse del entrenamiento previo y muestran sólidas capacidades multitarea. Los modelos 7B+ internalizan el preentrenamiento robótico a gran escala, de modo que unos pocos miles de pasos posteriores al entrenamiento en tareas posteriores son suficientes para la transferencia.

https://generalistai.com/blog/nov-04-2025-GEN-0

La imagen de arriba traza el error de predicción de validación de la siguiente acción en una tarea posterior de horizonte largo completamente retenida en todos los tamaños de modelo y cálculo previo al entrenamiento. Los modelos 1B se estabilizan temprano, mientras que los modelos 6B y 7B continúan mejorando a medida que aumenta el entrenamiento previo. El equipo de investigación conecta esta transición de fase con la paradoja de Moravec, argumentando que el sentido común físico y la destreza parecen requerir umbrales de cómputo más altos que el razonamiento del lenguaje abstracto, y que GEN-θ está operando más allá de ese punto de activación.

El equipo de IA generalista afirma que GEN-θ se ha ampliado a más de 10 mil millones de tamaños de modelos y que las variantes más grandes se adaptan a nuevas tareas con cada vez menos capacitación posterior.

Leyes de escala para la robótica

Otro enfoque de esta investigación son las leyes de escala que relacionan los datos y la computación previos al entrenamiento con el rendimiento posterior al entrenamiento. El equipo de investigación toma muestras de puntos de control de ejecuciones de entrenamiento GEN-θ en diferentes subconjuntos del conjunto de datos previo al entrenamiento y luego publica esos puntos de control en datos condicionados por el lenguaje y de múltiples tareas. Esta etapa de ajuste fino supervisada abarca 16 conjuntos de tareas, que cubren tareas de destreza como construir Lego, flujos de trabajo de la industria como el empaque de comida rápida y tareas de generalización que incluyen instrucciones de cualquier estilo.

En varias tareas, una mayor capacitación previa mejora la pérdida de validación y el error de predicción de la siguiente acción durante la capacitación posterior. A una escala de modelo suficiente, la relación entre el tamaño del conjunto de datos previo al entrenamiento y el error de validación posterior se describe bien mediante una ley de potencia de la forma.

L(D)=(Dc​/D)αD​

donde (D) es el número de trayectorias de acción en el preentrenamiento y (L(D)) es el error de validación en una tarea posterior. Esta fórmula permite a los equipos de robótica estimar cuántos datos previos al entrenamiento se necesitan para alcanzar un error de predicción de la siguiente acción objetivo, o cuántos datos etiquetados posteriores se pueden intercambiar por un entrenamiento previo adicional.

Motor de datos e infraestructura a escala robótica.

GEN-θ está entrenado en un conjunto de datos interno de 270.000 horas de trayectorias de manipulación del mundo real recopiladas en miles de hogares, almacenes y lugares de trabajo en todo el mundo. La operación de datos suma actualmente más de 10.000 nuevas horas por semana. El equipo de IA generalista afirma que GEN-θ está entrenado en órdenes de magnitud más datos de manipulación del mundo real que grandes conjuntos de datos robóticos anteriores a día de hoy.

Para sostener este régimen, el equipo de investigación ha creado hardware personalizado, cargadores de datos e infraestructura de red, incluidas líneas de Internet dedicadas para manejar el ancho de banda de enlace ascendente desde sitios distribuidos. La canalización utiliza contratos de múltiples nubes, máquinas de carga personalizadas y del orden de 10,000 núcleos de cómputo para un procesamiento multimodal continuo. El equipo de investigación informa sobre la compresión de docenas de petabytes de datos y técnicas de carga de datos a partir de modelos de base de vídeo de vanguardia, lo que produce un sistema capaz de absorber 6,85 años de experiencia de manipulación del mundo real por día de entrenamiento.

¿Cómo se entrena previamente GEN-θ es tan importante como su tamaño?

El equipo de IA generalista realiza grandes ablaciones en 8 conjuntos de datos previos al entrenamiento y 10 conjuntos de tareas de largo horizonte. Encuentran que diferentes combinaciones de datos, no solo más datos, producen modelos con diferentes comportamientos en 3 grupos de tareas, destreza, aplicaciones del mundo real y generalización. El rendimiento se mide utilizando el error cuadrático medio de validación en las siguientes acciones y la divergencia inversa de Kullback Leibler entre la política del modelo y un gaussiano en torno a las acciones de verdad sobre el terreno.

Los modelos MSE bajo y KL inverso bajo son mejores candidatos para un ajuste fino supervisado. Los modelos con MSE más alto pero KL inverso bajo son más multimodales en sus distribuciones de acción y pueden ser mejores puntos de partida para el aprendizaje por refuerzo.

Conclusiones clave

GEN-θ es un modelo básico incorporado entrenado con datos de interacción física sin procesar de alta fidelidad, no simulación o video de Internet, y utiliza el razonamiento armónico para pensar y actuar simultáneamente en la física del mundo real. Los experimentos de escalamiento muestran un umbral de inteligencia alrededor de los parámetros 7B, donde los modelos más pequeños se osifican bajo una alta carga de datos y los modelos más grandes siguen mejorando con más entrenamiento previo. GEN-θ exhibe leyes de escala claras, donde el rendimiento posterior al entrenamiento sigue una ley de potencia en la cantidad de datos previos al entrenamiento, lo que permite a los equipos predecir cuántos datos y cálculos se necesitan para los niveles de error objetivo. El sistema se entrena con más de 270.000 horas de manipulación de datos del mundo real, creciendo aproximadamente 10.000 horas por semana, respaldado por una infraestructura multinube personalizada que puede absorber 6,85 años de experiencia por día de capacitación. Las ablaciones a gran escala en 8 conjuntos de datos previos al entrenamiento y 10 conjuntos de tareas de largo horizonte muestran que la calidad de los datos y el diseño de la mezcla, medidos con validación MSE y KL inverso, son tan importantes como la escala, ya que diferentes mezclas producen modelos más adecuados para el ajuste supervisado o el aprendizaje por refuerzo.

GEN-θ posiciona los modelos básicos incorporados como un intento serio de llevar las leyes de escala a la robótica, utilizando el razonamiento armónico, el preentrenamiento multimodal a gran escala y el análisis explícito de combinaciones de datos. La investigación muestra que los modelos 7B+, entrenados con 270.000 horas de datos de manipulación del mundo real con 10.000 horas agregadas semanalmente, pueden cruzar un umbral de inteligencia donde, como era de esperar, más datos de interacción física mejoran el rendimiento posterior en tareas de destreza, aplicaciones y generalización.

Consulta los detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.