Robbyant, la unidad de IA incorporada dentro de Ant Group, ha abierto LingBot-World, un modelo mundial a gran escala que convierte la generación de video en un simulador interactivo para agentes incorporados, conducción autónoma y juegos. El sistema está diseñado para representar entornos controlables con alta fidelidad visual, dinámica fuerte y horizontes temporales largos, manteniendo al mismo tiempo la capacidad de respuesta suficiente para el control en tiempo real.
Del texto al vídeo, al texto y al mundo
La mayoría de los modelos de texto a vídeo generan clips cortos que parecen realistas pero se comportan como películas pasivas. No modelan cómo las acciones cambian el medio ambiente con el tiempo. LingBot-World está construido, en cambio, como un modelo de mundo condicionado por la acción. Aprende la dinámica de transición de un mundo virtual, de modo que las entradas del teclado y el mouse, junto con el movimiento de la cámara, impulsen la evolución de fotogramas futuros.
Formalmente, el modelo aprende la distribución condicional de tokens de video futuros, dados fotogramas pasados, indicaciones de lenguaje y acciones discretas. En el momento del entrenamiento, predice secuencias de hasta unos 60 segundos. En el momento de la inferencia, puede desplegar de forma autorregresiva secuencias de vídeo coherentes que se extienden hasta unos 10 minutos, manteniendo estable la estructura de la escena.
Motor de datos, del vídeo web a las trayectorias interactivas
Un diseño central en LingBot-World es un motor de datos unificado. Proporciona una supervisión rica y alineada sobre cómo las acciones cambian el mundo mientras cubre diversas escenas reales.
El proceso de adquisición de datos combina 3 fuentes:
Vídeos web a gran escala de humanos, animales y vehículos, tanto desde vistas en primera como en tercera persona. Datos del juego, donde los fotogramas RGB están estrictamente emparejados con controles de usuario como W, A, S, D y parámetros de la cámara. Trayectorias sintéticas renderizadas en Unreal Engine, donde se conocen fotogramas limpios, intrínsecos y extrínsecos de la cámara y diseños de objetos.
Después de la recopilación, una etapa de elaboración de perfiles estandariza este corpus heterogéneo. Filtra por resolución y duración, segmenta videos en clips y estima los parámetros faltantes de la cámara utilizando geometría y modelos de pose. Un modelo de lenguaje visual califica los clips según su calidad, magnitud de movimiento y tipo de vista, luego selecciona un subconjunto seleccionado.
Además de esto, un módulo de subtítulos jerárquico crea 3 niveles de supervisión de texto:
Subtítulos narrativos para trayectorias completas, incluido el movimiento de la cámara. Subtítulos de escenas estáticas que describen el diseño del entorno sin movimiento. Subtítulos temporales densos para ventanas de tiempo breves que se centran en la dinámica local.
Esta separación permite que el modelo desenrede la estructura estática de los patrones de movimiento, lo cual es importante para la coherencia del horizonte a largo plazo.
Arquitectura, red troncal de vídeo MoE y acondicionamiento de acciones.
LingBot-World comienza desde Wan2.2, un transformador de difusión de imagen a video con parámetros de 14B. Esta columna vertebral ya captura fuertes antecedentes de video de dominio abierto. El equipo de Robbyant lo amplía a una mezcla de expertos DiT, con 2 expertos. Cada experto tiene alrededor de 14B parámetros, por lo que el recuento total de parámetros es 28B, pero solo 1 experto está activo en cada paso de eliminación de ruido. Esto mantiene el costo de inferencia similar al de un modelo 14B denso al tiempo que amplía la capacidad.
Un plan de estudios amplía las secuencias de entrenamiento de 5 segundos a 60 segundos. El cronograma aumenta la proporción de pasos de tiempo con alto ruido, lo que estabiliza los diseños globales en contextos prolongados y reduce el colapso del modo para implementaciones prolongadas.
Para que el modelo sea interactivo, las acciones se inyectan directamente en los bloques del transformador. Las rotaciones de la cámara están codificadas con incrustaciones de Plücker. Las acciones del teclado se representan como vectores múltiples sobre teclas como W, A, S, D. Estas codificaciones se fusionan y pasan a través de módulos de normalización de capa adaptativa, que modulan los estados ocultos en el DiT. Solo se ajustan con precisión las capas del adaptador de acción, la red troncal de video principal permanece congelada, por lo que el modelo conserva la calidad visual del entrenamiento previo mientras aprende la capacidad de respuesta de la acción a partir de un conjunto de datos interactivo más pequeño.
La capacitación utiliza tareas de continuación de imagen a video y de video a video. Dada una única imagen, el modelo puede sintetizar fotogramas futuros. Dado un clip parcial, puede extender la secuencia. Esto da como resultado una función de transición interna que puede comenzar desde puntos de tiempo arbitrarios.
LingBot World Fast, destilación para uso en tiempo real
El modelo de entrenamiento medio, LingBot-World Base, todavía depende de la difusión de múltiples pasos y la atención temporal completa, que son costosas para la interacción en tiempo real. El equipo de Robbyant presenta LingBot-World-Fast como una variante acelerada.
El modelo rápido se inicializa a partir del experto en alto ruido y reemplaza la atención temporal completa con atención causal en bloque. Dentro de cada bloque temporal, la atención es bidireccional. Entre bloques, es causal. Este diseño admite el almacenamiento en caché de valores clave, por lo que el modelo puede transmitir fotogramas de forma autorregresiva con un coste menor.
La destilación utiliza una estrategia de forzamiento por difusión. El estudiante está entrenado en un pequeño conjunto de pasos de tiempo objetivo, incluido el paso de tiempo 0, por lo que ve latentes tanto ruidosas como limpias. La destilación de coincidencia de distribución se combina con un cabezal discriminador adversario. La pérdida adversarial actualiza sólo al discriminador. La red de estudiantes se actualiza con la pérdida de destilación, lo que estabiliza la formación preservando el seguimiento de la acción y la coherencia temporal.
En experimentos, LingBot World Fast alcanza 16 cuadros por segundo cuando procesa videos de 480p en un sistema con 1 nodo GPU y mantiene una latencia de interacción de extremo a extremo por debajo de 1 segundo para control en tiempo real.
Memoria emergente y comportamiento a largo plazo.
Una de las propiedades más interesantes de LingBot-World es la memoria emergente. El modelo mantiene una coherencia global sin representaciones 3D explícitas, como las salpicaduras gaussianas. Cuando la cámara se aleja de un punto de referencia como Stonehenge y regresa después de unos 60 segundos, la estructura reaparece con una geometría consistente. Cuando un automóvil sale del cuadro y luego vuelve a entrar, aparece en una ubicación físicamente plausible, no congelado ni reiniciado.
El modelo también puede soportar secuencias ultralargas. El equipo de investigación muestra una generación de video coherente que se extiende hasta 10 minutos, con diseño y estructura narrativa estables.]
Resultados de VBench y comparación con otros modelos del mundo.
Para la evaluación cuantitativa, el equipo de investigación utilizó VBench en un conjunto seleccionado de 100 videos generados, cada uno de más de 30 segundos. LingBot-World se compara con 2 modelos mundiales recientes, Yume-1.5 y HY-World-1.5.
En VBench, LingBot World informa:
Estas puntuaciones son más altas que ambas líneas de base en cuanto a calidad de imagen, calidad estética y grado dinámico. El margen de grados dinámico es grande, 0,8857 en comparación con 0,7612 y 0,7217, lo que indica transiciones de escena más ricas y movimientos más complejos que responden a las entradas del usuario. La suavidad del movimiento y el parpadeo temporal son comparables a la mejor línea de base y el método logra la mejor métrica de consistencia general entre los 3 modelos.
Una comparación separada con otros sistemas interactivos como Matrix-Game-2.0, Mirage-2 y Genie-3 destaca que LingBot-World es uno de los pocos modelos mundiales de código abierto que combina cobertura de dominio general, horizonte de generación largo, alto grado dinámico, resolución de 720p y capacidades en tiempo real.
Aplicaciones, mundos programables, agentes y reconstrucción 3D.
Más allá de la síntesis de vídeo, LingBot-World se posiciona como un banco de pruebas para la IA incorporada. El modelo admite eventos mundiales rápidos, donde las instrucciones de texto cambian el clima, la iluminación, el estilo o inyectan eventos locales como fuegos artificiales o animales en movimiento a lo largo del tiempo, preservando al mismo tiempo la estructura espacial.
También puede entrenar agentes de acción posteriores, por ejemplo con un modelo de acción de lenguaje de visión pequeño como Qwen3-VL-2B que predice políticas de control a partir de imágenes. Debido a que las transmisiones de video generadas son geométricamente consistentes, se pueden usar como entrada para canales de reconstrucción 3D, que producen nubes de puntos estables para escenas interiores, exteriores y sintéticas.
Conclusiones clave
LingBot-World es un modelo de mundo condicionado por la acción que extiende texto a video a una simulación de texto a mundo, donde las acciones del teclado y el movimiento de la cámara controlan directamente las presentaciones de video de largo horizonte de hasta aproximadamente 10 minutos. El sistema está entrenado en un motor de datos unificado que combina videos web, registros de juegos con etiquetas de acción y trayectorias de Unreal Engine, además de narrativa jerárquica, escenas estáticas y subtítulos temporales densos para separar el diseño del movimiento. La columna vertebral central es una combinación de parámetros de 28B de transformador de difusión experto, construido a partir de Wan2.2, con 2 expertos de 14B cada uno, y adaptadores de acción que se ajustan con precisión mientras la columna vertebral visual permanece congelada. LingBot-World-Fast es una variante destilada que utiliza atención causal en bloque, forzado de difusión y destilación de coincidencia de distribución para lograr aproximadamente 16 fotogramas por segundo a 480p en 1 nodo de GPU, con una latencia de extremo a extremo inferior a 1 segundo para uso interactivo. En VBench con 100 videos generados de más de 30 segundos, LingBot-World reporta la mayor calidad de imagen, calidad estética y grado dinámico entre Yume-1.5 y HY-World-1.5, y el modelo muestra memoria emergente y estructura estable de largo alcance adecuada para agentes encarnados y reconstrucción 3D.
Consulte la página Papel, Repo, Proyecto y Pesos de modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.