El preentrenamiento autorregresivo ha demostrado ser revolucionario en el aprendizaje automático, especialmente en lo que respecta al procesamiento de datos secuenciales. El modelado predictivo de los siguientes elementos de secuencia ha sido muy eficaz en el procesamiento del lenguaje natural y, cada vez más, se ha explorado en los dominios de la visión por computadora. El modelado de vídeo es un área que apenas se ha explorado y ofrece oportunidades para extenderse al reconocimiento de acciones, el seguimiento de objetos y aplicaciones robóticas. Estos desarrollos se deben a conjuntos de datos cada vez mayores y a la innovación en arquitecturas de transformadores que tratan las entradas visuales como tokens estructurados adecuados para el entrenamiento autorregresivo.

Modelar videos presenta desafíos únicos debido a su dinámica temporal y redundancia. A diferencia del texto con una secuencia clara, los fotogramas de vídeo suelen contener información redundante, lo que dificulta la tokenización y el aprendizaje de representaciones adecuadas. Un modelado de vídeo adecuado debería poder superar esta redundancia y al mismo tiempo capturar relaciones espaciotemporales en fotogramas. La mayoría de los marcos se han centrado en representaciones basadas en imágenes, dejando abierta la optimización de las arquitecturas de vídeo. La tarea requiere nuevos métodos para equilibrar la eficiencia y el rendimiento, particularmente cuando están en juego la previsión por vídeo y la manipulación robótica.

El aprendizaje de representaciones visuales a través de redes convolucionales y codificadores automáticos enmascarados ha resultado eficaz para tareas de imágenes. Estos enfoques suelen fallar en el caso de las aplicaciones de vídeo, ya que no pueden expresar por completo las dependencias temporales. Los métodos de tokenización como dVAE y VQGAN normalmente convierten información visual en tokens. Estos han demostrado ser efectivos, pero ampliar este enfoque se vuelve un desafío en escenarios con conjuntos de datos mixtos que incluyen imágenes y videos. La tokenización basada en parches no se generaliza para atender varias tareas de manera eficiente en un video.

Un equipo de investigación de Meta FAIR y UC Berkeley ha presentado la familia Toto de modelos de vídeo autorregresivos. Su novedad es ayudar a abordar las limitaciones de los métodos tradicionales, tratando los vídeos como secuencias de tokens visuales discretos y aplicando arquitecturas transformadoras causales para predecir tokens posteriores. Los investigadores desarrollaron modelos que podrían combinar fácilmente el entrenamiento con imágenes y videos entrenando en un conjunto de datos unificado que incluye más de un billón de tokens de imágenes y videos. El enfoque unificado permitió al equipo aprovechar las fortalezas del preentrenamiento autorregresivo en ambos dominios.

Los modelos Toto utilizan tokenización dVAE con un vocabulario de 8k tokens para procesar imágenes y fotogramas de vídeo. Cada cuadro cambia de tamaño y se tokeniza por separado, lo que da como resultado secuencias de 256 tokens. Luego, estos tokens son procesados ​​por un transformador causal que utiliza las características de las incorporaciones RMSNorm y RoPE para establecer un rendimiento mejorado del modelo. La capacitación se realizó en conjuntos de datos ImageNet y HowTo100M, tokenizando a una resolución de 128 × 128 píxeles. Los investigadores también optimizaron los modelos para tareas posteriores reemplazando la agrupación promedio con la agrupación de atención para garantizar una mejor calidad de representación.

Los modelos muestran un buen rendimiento en los puntos de referencia. Para la clasificación de ImageNet, el modelo Toto más grande logró una precisión superior del 75,3%, superando a otros modelos generativos como MAE e iGPT. En la tarea de reconocimiento de acciones Kinetics-400, los modelos alcanzan una precisión máxima del 74,4%, lo que demuestra su capacidad para comprender dinámicas temporales complejas. En el conjunto de datos DAVIS para seguimiento de vídeo semisupervisado, los modelos obtienen puntuaciones J&F de hasta 62,4, mejorando así los puntos de referencia de última generación establecidos por DINO y MAE. Además, en tareas robóticas como la manipulación de objetos, los modelos Toto aprenden mucho más rápido y son más eficientes con las muestras. Por ejemplo, el modelo Toto-base logra una tarea del mundo real de selección de cubos en el robot Franka con una precisión del 63%. En general, estos son resultados impresionantes con respecto a la versatilidad y escalabilidad de estos modelos propuestos con diversas aplicaciones.

El trabajo proporcionó un desarrollo significativo en el modelado de video al abordar la redundancia y los desafíos en la tokenización. Los investigadores demostraron con éxito «mediante un entrenamiento unificado tanto en imágenes como en vídeos, que esta forma de preentrenamiento autorregresivo es generalmente eficaz en una variedad de tareas». La arquitectura innovadora y las estrategias de tokenización proporcionan una base para una investigación más densa de predicción y reconocimiento. Este es un paso significativo hacia desbloquear todo el potencial del modelado de vídeo en aplicaciones del mundo real.


Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

Por automata