NVIDIA AI presenta NVILA: una familia de VLM de modelos de lenguaje visual abierto diseñados para optimizar tanto la eficiencia como la precisión

Los modelos de lenguaje visual (VLM) han recorrido un largo camino en la integración de datos visuales y textuales. Sin embargo, conllevan desafíos importantes. Muchos de los VLM actuales exigen recursos sustanciales para capacitación, ajuste e implementación. Por ejemplo, entrenar un modelo de 7 mil millones de parámetros puede llevar más de 400 días de GPU, lo que lo hace inaccesible para muchos investigadores. El ajuste es igualmente exigente y a menudo requiere más de 64 GB de memoria GPU, lo que supera con creces lo que el hardware de consumo puede manejar. La implementación de estos modelos en entornos con recursos computacionales limitados, como dispositivos de borde o robótica, es otro obstáculo. Estas limitaciones resaltan la necesidad urgente de VLM que no solo sean potentes sino también eficientes y escalables.

Para afrontar estos desafíos, NVIDIA ha presentado NVILA, una familia de VLM abiertos diseñados teniendo en cuenta la eficiencia y la precisión. Partiendo del modelo VILA, NVILA adopta un enfoque de “escalar y luego comprimir”. Este método aumenta las resoluciones espaciales y temporales para preservar los detalles en las entradas visuales y luego las comprime en menos tokens y más densos. Esta combinación permite a NVILA manejar imágenes de alta resolución y largas secuencias de vídeo de forma eficaz.

El diseño de NVILA optimiza cada etapa del ciclo de vida del modelo. Reduce los costos de capacitación en 4,5 veces, reduce los requisitos de memoria de ajuste fino en 3,4 veces y mejora las velocidades de inferencia entre 1,6 y 2,8 veces en comparación con otros VLM. Es importante destacar que estos beneficios no se obtienen a expensas de la precisión. NVILA funciona a la par o mejor que muchos puntos de referencia, sobresaliendo en tareas de respuesta visual a preguntas, comprensión de videos y procesamiento de documentos. NVIDIA también planea lanzar el código y los modelos de NVILA, fomentando una mayor accesibilidad y reproducibilidad.

Detalles técnicos

En el centro de la eficiencia de NVILA se encuentra su estrategia de “escalar y luego comprimir”. El escalado espacial aumenta la resolución de la imagen a dimensiones como 896×896 píxeles, en comparación con los 448×448 habituales. Para mitigar el costo computacional del escalamiento, NVILA utiliza la compresión de tokens para retener información esencial mientras reduce la cantidad de tokens. Para las entradas de vídeo, el modelo procesa más fotogramas aplicando compresión temporal, equilibrando la precisión y la eficiencia computacional.

NVILA incorpora más innovaciones para agilizar la formación y el perfeccionamiento. Técnicas como la precisión mixta del FP8 y la poda de conjuntos de datos aceleran el entrenamiento y reducen el uso de memoria. Las tasas de aprendizaje adaptativo y el ajuste eficiente de los parámetros garantizan que el modelo pueda manejar tareas específicas del dominio sin demandas excesivas de recursos. Durante la implementación, NVILA utiliza cuantificación avanzada (W8A8 para la torre de visión y W4A16 para los componentes del lenguaje) para acelerar la inferencia mientras se mantiene el rendimiento.

Aspectos destacados del rendimiento

El valor de NVILA radica en hacer que los VLM avanzados sean más accesibles y al mismo tiempo abordar la necesidad de sistemas de IA eficientes. Algunas métricas clave incluyen:

  • Eficiencia del entrenamiento: NVILA reduce el tiempo de entrenamiento de GPU 4,5 veces en comparación con los modelos líderes, lo que la hace más viable para instituciones con recursos limitados.
  • Ajuste fino del uso de la memoria: Los requisitos de memoria se reducen 3,4 veces, lo que permite realizar ajustes en el hardware estándar.
  • Rendimiento de inferencia: La latencia de decodificación mejora hasta 2,8 veces y admite aplicaciones en tiempo real.
  • Resultados de referencia: NVILA logra hasta un 30 % más de precisión en tareas como DocVQA y TextVQA. Sus capacidades de contexto largo superan a los modelos propietarios como GPT-4o y Gemini 1.5.

El potencial de NVILA abarca diversos campos, incluidos la robótica y la atención sanitaria. Por ejemplo, sus capacidades de localización temporal lo hacen ideal para la navegación robótica, mientras que su marco NVILA-M3 integra modelos expertos para mejorar la precisión del diagnóstico en imágenes médicas.

Conclusión

NVILA representa un importante paso adelante en el desarrollo de modelos de lenguaje visual. Al repensar la arquitectura y optimizar todo el ciclo de vida, NVIDIA ha creado un modelo que equilibra la eficiencia y la precisión. NVILA aborda las limitaciones de los VLM tradicionales y amplía su aplicabilidad a entornos especializados y con recursos limitados. Con el compromiso de NVIDIA con el acceso abierto, NVILA está preparada para inspirar más investigación e innovación en IA.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 [Must Attend Webinar]: ‘Transformar pruebas de concepto en aplicaciones y agentes de IA listos para producción’ (Promovido)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.