En el campo en evolución de la inteligencia artificial, los modelos en idioma de visión (VLMS) se han convertido en herramientas esenciales, lo que permite a las máquinas interpretar y generar ideas a partir de datos visuales y textuales. A pesar de los avances, los desafíos siguen siendo equilibrados el rendimiento del modelo con la eficiencia computacional, especialmente al implementar modelos a gran escala en entornos limitados por recursos.
Qwen ha introducido el qwen2.5-vl-32b-instructo, un VLM de 32 mil millones de parámetros que supera a su predecesor más grande, el QWEN2.5-VL-72B y otros modelos como GPT-4O Mini, mientras se libera bajo la licencia Apache 2.0. Este desarrollo refleja un compromiso con la colaboración de código abierto y aborda la necesidad de modelos de alto rendimiento pero computacionalmente manejables.
Técnicamente, el modelo QWEN2.5-VL-32B-Instructo ofrece varias mejoras:
- Comprensión visual: El modelo se destaca en el reconocimiento de objetos y análisis de textos, gráficos, iconos, gráficos y diseños dentro de las imágenes.
- Capacidades de agente: Funciona como un agente visual dinámico capaz de razonar y dirigir herramientas para interacciones informáticas y telefónicas.
- Comprensión de video: El modelo puede comprender videos durante una hora y identificar segmentos relevantes, demostrando una localización temporal avanzada.
- Localización de objetos: Identifica con precisión objetos en las imágenes generando cuadros o puntos delimitadores, proporcionando salidas JSON estables para coordenadas y atributos.
- Generación de salida estructurada: El modelo admite salidas estructuradas para datos como facturas, formularios y tablas, beneficiando las aplicaciones en finanzas y comercio.
Estas características mejoran la aplicabilidad del modelo en varios dominios que requieren una comprensión multimodal matizada.
Las evaluaciones empíricas resaltan las fortalezas del modelo:
- Tareas de visión: En el punto de referencia masivo de comprensión de lenguaje múltiple (MMMU), el modelo obtuvo 70.0, superando el 64.5 de QWEN2-VL-72B. En Mathvista, logró 74.7 en comparación con los 70.5 anteriores. En particular, en OCRBenchV2, el modelo obtuvo 57.2/59.1, una mejora significativa sobre los 47.8/46.1 anteriores. En las tareas de control de Android, logró 69.6/93.3, excediendo el anterior 66.4/84.4.
- Tareas de texto: El modelo demostró un rendimiento competitivo con una puntuación de 78.4 en MMLU, 82.2 en matemáticas y un impresionante 91.5 en modelos humaneval y superiores a los modelos superiores a GPT-4O en ciertas áreas.
Estos resultados subrayan la competencia equilibrada del modelo en diversas tareas.
En conclusión, el instructo QWEN2.5-VL-32B representa un avance significativo en el modelado en idioma de visión, logrando una mezcla armoniosa de rendimiento y eficiencia. Su disponibilidad de código abierto bajo la licencia Apache 2.0 alienta a la comunidad global de IA a explorar, adaptarse y aprovechar este modelo robusto, potencialmente acelerando la innovación y la aplicación en varios sectores.
Verificar el Pesas de modelos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.