Los modelos de lenguaje de gran tamaño (LMM) se están desarrollando significativamente y están demostrando ser capaces de manejar tareas más complejas que requieren una combinación de diferentes habilidades integradas. Entre estas tareas se incluyen la navegación por interfaz gráfica de usuario, la conversión de imágenes a código y la comprensión de películas. Se han establecido varios puntos de referencia, incluidos MME, MMBench, SEEDBench, MMMU y MM-Vet, para evaluar de manera integral el rendimiento de los LMM. Este se concentra en evaluar los LMM según su capacidad para integrar funciones fundamentales.
En investigaciones recientes, MM-Vet se ha consolidado como uno de los puntos de referencia más populares para evaluar los LLM, en particular a través de su uso de preguntas abiertas de visión y lenguaje diseñadas para evaluar capacidades integradas. Este punto de referencia evalúa en particular seis habilidades fundamentales de visión y lenguaje: aritmética, reconocimiento, conocimiento, conciencia espacial, creación de lenguaje y reconocimiento óptico de caracteres (OCR). Muchas aplicaciones del mundo real dependen de la capacidad de comprender y absorber información escrita y visual de manera coherente, lo que es posible gracias a estas habilidades.
Sin embargo, el formato original de MM-Vet tiene una limitación: solo se puede utilizar para preguntas con un único par de texto e imagen. Esto es problemático porque no logra captar la complejidad de las situaciones del mundo real, donde la información se presenta con frecuencia en secuencias de texto y visuales. En este tipo de situaciones, un modelo se pone a prueba de una manera más sofisticada y práctica al tener que comprender e interpretar una variedad de información textual y visual en contexto.
MM-Vet se ha mejorado en MM-Vet v2 para superar esta restricción. La «comprensión de secuencias de texto e imagen» es la séptima capacidad de VL incluida en esta edición. Esta característica está destinada a evaluar la velocidad de procesamiento de un modelo para secuencias que contienen tanto texto como información visual, más representativas de los tipos de tareas que los modelos multimodales grandes (LMM) probablemente encontrarán en escenarios del mundo real. Con la incorporación de esta nueva característica, MM-Vet v2 ofrece una evaluación más exhaustiva de la eficacia general de un LMM y su capacidad para gestionar tareas complejas e interconectadas.
MM-Vet v2 tiene como objetivo aumentar el tamaño del conjunto de evaluación, preservando al mismo tiempo el alto calibre de las muestras de evaluación, además de mejorar las capacidades evaluadas. Esto garantiza que el estándar seguirá siendo estricto y confiable incluso a medida que se expande para abarcar trabajos cada vez más difíciles y variados. Después de comparar varios LMM con MM-Vet v2, se demostró que Claude 3.5 Sonnet tiene la mayor puntuación de rendimiento (71,8). Esto superó marginalmente a GPT-4o, que tuvo una puntuación de 71,0, lo que sugiere que Claude 3.5 Sonnet es marginalmente más hábil para completar las tareas desafiantes evaluadas por MM-Vet v2. Con una puntuación competitiva de 68,4, InternVL2-Llama3-76B se destacó como el mejor modelo de peso abierto, lo que demuestra su solidez a pesar de su condición de peso abierto.
En conclusión, MM-Vet v2 supone un gran avance en la evaluación de los LMM, ya que permite una evaluación más completa y realista de sus capacidades, añadiendo la capacidad de comprensión y procesamiento de secuencias de imagen y texto, además de aumentar la calidad y el alcance del conjunto de evaluación.
Echa un vistazo a la Papel y GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Tanya Malhotra es una estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, que cursa BTech en Ingeniería Informática con una especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la ciencia de datos con un buen pensamiento analítico y crítico, junto con un gran interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.