La comprensión multimodal de contexto largo ya no requiere modelos masivos: NVIDIA AI presenta a Eagle 2.5, un modelo generalista en idioma de visión que coincide con GPT-4O en tareas de video utilizando solo parámetros 8B

En los últimos años, los modelos en idioma de visión (VLMS) han avanzado significativamente en las modalidades de puente de imagen, video y textual. Sin embargo, sigue siendo una limitación persistente: la incapacidad de procesar efectivamente datos multimodales de contexto largo, como imágenes de alta resolución o secuencias de video extendidas. Muchos VLM existentes están optimizados para escenarios de corto contexto y luchan con la degradación del rendimiento, el uso ineficiente de la memoria o la pérdida de detalles semánticos cuando se escalan para manejar entradas más largas. Abordar estas limitaciones requiere no solo flexibilidad arquitectónica, sino también estrategias dedicadas para el muestreo de datos, la capacitación y la evaluación.

Eagle 2.5: un marco generalista para el aprendizaje de contexto largo

Nvidia presenta a Eagle 2.5, una familia de modelos en idioma de visión diseñados para el aprendizaje multimodal de contexto largo. A diferencia de los modelos que simplemente acomodan más tokens de entrada, Eagle 2.5 demuestra mejoras de rendimiento medibles y consistentes a medida que aumenta la longitud de entrada. El sistema se desarrolla con un enfoque tanto en la comprensión de video como en la imagen a escala, enfocando tareas donde la riqueza del contenido de forma larga es crítica.

Eagle 2.5 funciona con un recuento de parámetros 8B relativamente compacto y, sin embargo, logra fuertes resultados en los puntos de referencia establecidos. En Video-MME (con entrada de 512 marco), el modelo obtiene un 72.4%, que se acerca o coincide con los resultados de modelos significativamente más grandes como Qwen2.5-VL-72B e Internvl2.5-78b. En particular, estas ganancias se logran sin depender de los módulos de compresión específicos de la tarea, lo que refleja la filosofía de diseño generalista del modelo.

Estrategia de capacitación: optimización con contexto

La efectividad de Eagle 2.5 proviene de dos estrategias de capacitación complementarias: de muestreo de la primera información y Post-entrenamiento progresivo.

  • De muestreo de la primera información Prioriza la retención de contenido visual y semántico crítico. Presenta Preservación del área de imagen (IAP)un esquema de mosaico que mantiene más del 60% del área de imagen original al tiempo que minimiza la distorsión de la relación de aspecto. Además, Muestreo de degradación automática (ADS) equilibra dinámicamente las entradas visuales y textuales basadas en restricciones de longitud de contexto, preservando secuencias textuales completas y optimización de granularidad visual adaptativa.
  • Post-entrenamiento progresivo Aumenta incrementalmente la ventana de contexto del modelo, moviendo a través de 32k, 64k y 128k de etapas de token. Esta exposición gradual permite que el modelo desarrolle capacidades consistentes en las longitudes de entrada. El método evita el sobreajuste a cualquier rango de contexto único y ayuda a mantener un rendimiento estable en diversos escenarios de inferencia.

Estos enfoques están respaldados por una arquitectura basada en Siglip para la codificación de la visión y las capas de proyección MLP para la alineación con la columna vertebral del modelo de lenguaje. El sistema emite componentes de compresión específicos del dominio para retener la flexibilidad en los tipos de tareas variados.

Eagle-Video-10k: datos estructurados para la comprensión de video extendida

Un componente clave de Eagle 2.5 es su canal de datos de capacitación, que integra recursos de código abierto y un conjunto de datos curado a medida: Águila-video-110k. Este conjunto de datos está construido para admitir la comprensión de video de forma larga y adopta un esquema de doble anotación:

  • A De arriba hacia abajo El enfoque introduce la segmentación a nivel de la historia utilizando metadatos del capítulo anotados por humanos y subtítulos densos generados por GPT-4 y pares de preguntas y respuestas.
  • A de abajo hacia arriba El método genera pares de control de calidad para clips cortos que utilizan GPT-4O, aumentados con el tiempo y los anclajes de contexto textual para capturar detalles espacio-temporales.

La colección del conjunto de datos enfatiza la diversidad sobre la redundancia. Un proceso de selección basado en la similitud de coseno filtra el contenido novedoso de fuentes como Internvid, Shot2story y VidCapters. Esto da como resultado un corpus con coherencia narrativa y anotaciones granulares, lo que permite a los modelos capturar información jerárquica a lo largo del tiempo.

Rendimiento y evaluación comparativa

Eagle 2.5-8b exhibe un rendimiento robusto en múltiples tareas de comprensión de videos e imágenes. En los puntos de referencia de video, obtiene 74.8 en MVBench, 77.6 en MLVU y 66.4 en LongVideObench. En los puntos de referencia de imagen, el modelo alcanza 94.1 en Docvqa, 87.5 en Chartqa y 80.4 en Infovqa, entre otros.

Los estudios de ablación confirman la importancia de las estrategias de muestreo de Eagle. La eliminación de IAP conduce a la degradación del rendimiento en puntos de referencia de alta resolución, mientras que omitir anuncios reduce la efectividad en tareas que requieren una densa supervisión. El modelo también se beneficia de la capacitación progresiva: las longitudes de contexto que aumentan secuencialmente proporcionan ganancias más estables en comparación con el entrenamiento de contexto largo de un solo disparo. Es importante destacar que la adición de Eagle-Video-10k mejora notablemente el rendimiento en recuentos de cuadros más altos (≥128 cuadros), lo que subraya el valor de los conjuntos de datos dedicados de forma larga.

Conclusión

Eagle 2.5 presenta un enfoque técnicamente fundamentado para el modelado en idioma de visión de contexto a largo plazo. Su énfasis en preservar la integridad contextual, la adaptación gradual de capacitación y la diversidad del conjunto de datos le permiten lograr un rendimiento fuerte al tiempo que mantiene la generalidad arquitectónica. Sin confiar solo en la escala del modelo, Eagle 2.5 demuestra que las estrategias de entrenamiento cuidadosas y el diseño de datos pueden producir sistemas competitivos y eficientes para tareas de comprensión multimodal complejas. Esto posiciona a Eagle 2.5 como un valioso paso adelante en la construcción de sistemas AI más conscientes del contexto adecuados para aplicaciones multimedia del mundo real.


Mira el Papel, Página de Github y Página del proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.