Los humanos tienen una capacidad innata para procesar señales visuales crudas de la retina y desarrollar una comprensión estructurada de su entorno, identificando objetos y patrones de movimiento. Un objetivo importante de aprendizaje automático es descubrir los principios subyacentes que permiten tal aprendizaje humano no supervisado. Una hipótesis clave, el principio de característica predictiva, sugiere que las representaciones de entradas sensoriales consecutivas deben ser predictivas entre sí. Los primeros métodos, incluido el análisis de características lentas y las técnicas espectrales, tenían como objetivo mantener la consistencia temporal al tiempo que evitan el colapso de la representación. Los enfoques más recientes incorporan redes siamesas, el aprendizaje contrastante y el modelado enmascarado para garantizar la evolución de la representación significativa con el tiempo. En lugar de centrarse únicamente en la invariancia temporal, las técnicas modernas entran a las redes predictoras para mapear las relaciones de características en diferentes pasos de tiempo, utilizando codificadores congelados o capacitación tanto al codificador como al predictor simultáneamente. Este marco predictivo se ha aplicado con éxito a través de modalidades como imágenes y audio, con modelos como JEPA aprovechando las arquitecturas de incrustación conjunta para predecir la información faltante del espacio de características de manera efectiva.
Los avances en el aprendizaje auto-supervisado, particularmente a través de los transformadores de la visión y las arquitecturas de incrustación conjunta, han mejorado significativamente el modelado enmascarado y el aprendizaje de representación. El enmascaramiento espacio -temporal ha extendido estas mejoras a los datos de video, mejorando la calidad de las representaciones aprendidas. Además, los mecanismos de agrupación basados en atención cruzada han refinado autoencoders enmascarados, mientras que métodos como BYOL mitigan el colapso de la representación sin depender de los aumentos artesanales. En comparación con la reconstrucción del espacio de píxeles, la predicción en el espacio de características permite que los modelos filtren detalles irrelevantes, lo que lleva a representaciones eficientes y adaptables que se generalizan bien en todas las tareas. Investigaciones recientes destacan que esta estrategia es computacionalmente eficiente y efectiva en todos los dominios como imágenes, audio y texto. Este trabajo extiende estas ideas a los videos, mostrando cómo el aprendizaje de características predictivas mejora la calidad de la representación espacio -temporal.
Investigadores de feria en Meta, Inria, École Normale Supérieure, CNRS, PSL Research University, Univ. Gustave Eiffel, el Instituto de Courant y la Universidad de Nueva York presentaron V-Jepa, un modelo de visión capacitado exclusivamente en la predicción de características para el aprendizaje de video no supervisado. A diferencia de los enfoques tradicionales, V-JEPA no se basa en codificadores previos a la aparición, muestras negativas, reconstrucción o supervisión textual. Entrenado en dos millones de videos públicos, logra un fuerte rendimiento en el movimiento y las tareas basadas en la apariencia sin ajustar. En particular, V-JEPA supera a otros métodos en algo, algo y sigue siendo competitivo en la cinética-400, lo que demuestra que la predicción de características por sí sola puede producir representaciones visuales eficientes y adaptables con duraciones de entrenamiento más cortas.
La metodología implica capacitar un modelo de base para el aprendizaje centrado en los objetos utilizando datos de video. Primero, una red neuronal extrae representaciones centradas en objetos de los marcos de video, capturando las señales de movimiento y apariencia. Estas representaciones se refinan a través del aprendizaje contrastante para mejorar la separabilidad de los objetos. Una arquitectura basada en transformador procesa estas representaciones para modelar las interacciones de los objetos a lo largo del tiempo. El marco está entrenado en un conjunto de datos a gran escala, optimizando para la precisión de la reconstrucción y la consistencia en los cuadros.
V-JEPA se compara con los métodos de predicción de píxeles utilizando arquitecturas de modelos similares y muestra un rendimiento superior en las tareas de video e imagen en la evaluación congelada, excepto para la clasificación de Imagenet. Con el ajuste fino, supera a los modelos a base de VIT-L/16 y coincide con Hiera-L, al tiempo que requiere menos muestras de entrenamiento. En comparación con los modelos de vanguardia, V-JepA sobresale en comprensión de movimiento y tareas de video, entrenando de manera más eficiente. También demuestra una fuerte eficiencia de etiquetas, superando a los competidores en entornos de bajo disparo al mantener la precisión con menos ejemplos etiquetados. Estos resultados resaltan las ventajas de la predicción de características en el aprendizaje de representaciones de video efectivas con requisitos de datos y computacionales reducidos.
En conclusión, el estudio examinó la efectividad de la predicción de características como un objetivo independiente para el aprendizaje de video no supervisado. Introdujo V-JEPA, un conjunto de modelos de visión entrenados puramente a través de la predicción de características auto-supervisadas. V-JEPA funciona bien en varias tareas de imagen y video sin requerir la adaptación de parámetros, superando los métodos anteriores de representación de video en evaluaciones congeladas para el reconocimiento de acción, la detección de acción espacio-temporal y la clasificación de imágenes. El pre-meñimiento en los videos mejora su capacidad para capturar detalles de movimiento de grano fino, donde los modelos de imagen a gran escala luchan. Además, V-JEPA demuestra una fuerte eficiencia de etiquetas, manteniendo un alto rendimiento incluso cuando los datos etiquetados limitados están disponibles para tareas aguas abajo.
Verificar el Papel y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.