Conozca LLaVA-o1: el primer modelo de lenguaje visual capaz de realizar un razonamiento sistemático y espontáneo similar a GPT-o1

El desarrollo de modelos visión-lenguaje (VLM) ha enfrentado desafíos en el manejo de tareas complejas de respuesta visual a preguntas. A pesar de los avances sustanciales en las capacidades de razonamiento mediante grandes modelos de lenguaje como GPT-o1 de OpenAI, los VLM todavía luchan con el razonamiento sistemático y estructurado. Los modelos actuales a menudo carecen de la capacidad de organizar información y participar en razonamientos lógicos y secuenciales, lo que limita su efectividad para tareas que requieren un procesamiento cognitivo profundo, particularmente cuando se trata de entradas multimodales como imágenes combinadas con texto. Los VLM tradicionales tienden a generar respuestas inmediatas sin un enfoque de razonamiento paso a paso, lo que genera errores e inconsistencias.

Conoce LLaVA-o1

Un equipo de investigadores de la Universidad de Pekín, la Universidad de Tsinghua, el Laboratorio Peng Cheng, la Academia Alibaba DAMO y la Universidad de Lehigh ha presentado LLaVA-o1: un modelo de lenguaje visual capaz de razonamiento sistemático, similar a GPT-o1. LLaVA-o1 es un modelo de 11 mil millones de parámetros diseñado para un razonamiento autónomo en varias etapas. Se basa en el modelo Llama-3.2-Vision-Instruct e introduce un proceso de razonamiento estructurado, abordando las limitaciones de los VLM anteriores con un enfoque más metódico. La innovación clave en LLaVA-o1 es la implementación de cuatro etapas de razonamiento distintas: resumen, título, razonamiento y conclusión.

El modelo se afina utilizando un conjunto de datos llamado LLaVA-o1-100k, derivado de fuentes de respuesta visual a preguntas (VQA) y anotaciones de razonamiento estructurado generadas por GPT-4o. Esto permite a LLaVA-o1 realizar razonamientos de varias etapas, ampliando capacidades similares a GPT-o1 en tareas de visión y lenguaje, que históricamente se han quedado rezagadas con respecto a los modelos basados ​​en texto.

Detalles técnicos y beneficios

LLaVA-o1 emplea una novedosa técnica de escalamiento de tiempo de inferencia llamada búsqueda de haz a nivel de etapa. A diferencia de los métodos anteriores, como la búsqueda por haz de lo mejor de N o a nivel de oración, LLaVA-o1 genera múltiples respuestas para cada etapa de su proceso de razonamiento estructurado y selecciona el mejor candidato en cada paso, lo que garantiza resultados de mayor calidad. Este enfoque estructurado mantiene la coherencia lógica durante todo el proceso de razonamiento, lo que lleva a conclusiones más precisas.

Ajustado a partir del modelo Llama-3.2-11B-Vision-Instruct, LLaVA-o1 muestra una mejora del 8,9% en los puntos de referencia de razonamiento multimodal en comparación con su modelo base, superando incluso a competidores más grandes o de código cerrado como Gemini-1.5-pro, GPT. -4o-mini y Llama-3.2-90B-Vision-Instruct. Lo logra con solo 100.000 muestras de entrenamiento, lo que convierte a LLaVA-o1 en una solución eficiente en términos de rendimiento y escalabilidad. Al emplear pensamiento estructurado a través de distintas etapas, LLaVA-o1 aborda sistemáticamente los problemas, minimizando los errores de razonamiento comunes en otros VLM.

Importancia y resultados

LLaVA-o1 aborda una brecha significativa entre los modelos de respuesta a preguntas textuales y visuales al permitir el razonamiento sistemático en tareas de visión y lenguaje. Los resultados experimentales muestran que LLaVA-o1 mejora el rendimiento en puntos de referencia como MMStar, MMBench, MMVet, MathVista, AI2D y HalllusionBench. Supera consistentemente su modelo base en más del 6,9% en los puntos de referencia multimodales, particularmente en dominios de razonamiento intensivo, como preguntas visuales matemáticas y científicas.

La búsqueda de haces a nivel de etapa mejora la confiabilidad del modelo al generar y verificar múltiples respuestas candidatas para cada etapa, seleccionando la más apropiada. Esto permite a LLaVA-o1 sobresalir en tareas visuales complejas, en comparación con los métodos tradicionales de escalado de inferencia que pueden resultar ineficientes. LLaVA-o1 demuestra que las respuestas estructuradas son cruciales para lograr un razonamiento consistente y de alta calidad, estableciendo un nuevo estándar para modelos de tamaño similar.

Conclusión

LLaVA-o1 es un modelo de lenguaje visual capaz de razonamiento sistemático, similar a GPT-o1. Su estructura de razonamiento de cuatro etapas, combinada con la búsqueda de haces a nivel de etapa, establece un nuevo punto de referencia para la IA multimodal. Al entrenar en un conjunto de datos relativamente pequeño pero construido estratégicamente, LLaVA-o1 demuestra que se puede lograr un razonamiento multimodal eficiente y escalable sin los recursos masivos que requieren los modelos de código cerrado más grandes. LLaVA-o1 allana el camino para futuras investigaciones sobre el razonamiento estructurado dentro de modelos de visión y lenguaje, prometiendo capacidades más avanzadas en el procesamiento cognitivo impulsado por IA en los dominios visuales y textuales.


Mira el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

Por qué los modelos de lenguaje de IA siguen siendo vulnerables: información clave del informe de Kili Technology sobre las vulnerabilidades de los modelos de lenguaje grandes [Read the full technical report here]


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.