VITA-1.5: un modelo multimodal de lenguaje grande que integra visión, lenguaje y habla a través de una metodología de capacitación de tres etapas cuidadosamente diseñada

El desarrollo de modelos de lenguajes grandes multimodales (MLLM) ha brindado nuevas oportunidades en inteligencia artificial. Sin embargo, persisten desafíos importantes en la integración de las modalidades visual, lingüística y del habla. Si bien muchos MLLM funcionan bien con la visión y el texto, la incorporación del habla sigue siendo un obstáculo. El habla, un medio natural para la interacción humana, juega un papel esencial en los sistemas de diálogo, sin embargo, las diferencias entre las modalidades (representaciones de datos espaciales versus temporales) crean conflictos durante el entrenamiento. Los sistemas tradicionales que dependen de módulos separados de reconocimiento automático de voz (ASR) y de texto a voz (TTS) suelen ser lentos y poco prácticos para aplicaciones en tiempo real.

Investigadores de NJU, Tencent Youtu Lab, XMU y CASIA han presentado VITA-1.5, un modelo multimodal de lenguaje grande que integra visión, lenguaje y habla a través de una metodología de entrenamiento de tres etapas cuidadosamente diseñada. A diferencia de su predecesor, VITA-1.0, que dependía de módulos TTS externos, VITA-1.5 emplea un marco de trabajo de extremo a extremo, lo que reduce la latencia y agiliza la interacción. El modelo incorpora codificadores de visión y voz junto con un decodificador de voz, lo que permite interacciones casi en tiempo real. A través de un entrenamiento multimodal progresivo, aborda los conflictos entre modalidades manteniendo el rendimiento. Los investigadores también han puesto a disposición del público el código de formación e inferencia, fomentando la innovación en el campo.

Detalles técnicos y beneficios

VITA-1.5 está diseñado para equilibrar eficiencia y capacidad. Utiliza codificadores de visión y audio, empleando parches dinámicos para entradas de imágenes y técnicas de reducción de resolución para audio. El decodificador de voz combina métodos no autorregresivos (NAR) y autorregresivos (AR) para garantizar una generación de voz fluida y de alta calidad. El proceso de formación se divide en tres etapas:

  1. Entrenamiento Visión-Lenguaje: Esta etapa se centra en la alineación y la comprensión de la visión, utilizando subtítulos descriptivos y tareas de respuesta visual a preguntas (QA) para establecer una conexión entre las modalidades visuales y lingüísticas.
  2. Sintonización de entrada de audio: El codificador de audio está alineado con el modelo de lenguaje utilizando datos de transcripción de voz, lo que permite un procesamiento de entrada de audio efectivo.
  3. Sintonización de salida de audio: El decodificador de voz está entrenado con datos emparejados texto-voz, lo que permite salidas de voz coherentes e interacciones fluidas de voz a voz.

Estas estrategias abordan eficazmente los conflictos de modalidad, lo que permite a VITA-1.5 manejar datos de imágenes, videos y voz sin problemas. El enfoque integrado mejora su usabilidad en tiempo real, eliminando cuellos de botella comunes en los sistemas tradicionales.

Resultados y conocimientos

Las evaluaciones de VITA-1.5 en varios puntos de referencia demuestran sus sólidas capacidades. El modelo se desempeña de manera competitiva en tareas de comprensión de imágenes y videos, logrando resultados comparables a los principales modelos de código abierto. Por ejemplo, en puntos de referencia como MMBench y MMStar, las capacidades de visión y lenguaje de VITA-1.5 están a la par de modelos propietarios como GPT-4V. Además, destaca en tareas de habla, logrando bajas tasas de error de caracteres (CER) en mandarín y tasas de error de palabras (WER) en inglés. Es importante destacar que la inclusión del procesamiento de audio no compromete sus capacidades de razonamiento visual. El desempeño consistente del modelo en todas las modalidades resalta su potencial para aplicaciones prácticas.

Conclusión

VITA-1.5 representa un enfoque reflexivo para resolver los desafíos de la integración multimodal. Al abordar los conflictos entre la visión, el lenguaje y las modalidades del habla, ofrece una solución coherente y eficiente para interacciones en tiempo real. Su disponibilidad de código abierto garantiza que los investigadores y desarrolladores puedan aprovechar sus bases, avanzando en el campo de la IA multimodal. VITA-1.5 no solo mejora las capacidades actuales sino que también apunta hacia un futuro más integrado e interactivo para los sistemas de IA.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluaciónÚnase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.