QWEN libera el qwen2.5-vl-32b-instructo: un parámetro 32B VLM que supera QWEN2.5-VL-72B y otros modelos como GPT-4O Mini

En el campo en evolución de la inteligencia artificial, los modelos en idioma de visión (VLMS) se han convertido en herramientas esenciales, lo que permite a las máquinas interpretar y generar ideas a partir de datos visuales y textuales. A pesar de los avances, los desafíos siguen siendo equilibrados el rendimiento del modelo con la eficiencia computacional, especialmente al implementar modelos a gran escala en entornos limitados por recursos.

Qwen ha introducido el qwen2.5-vl-32b-instructo, un VLM de 32 mil millones de parámetros que supera a su predecesor más grande, el QWEN2.5-VL-72B y otros modelos como GPT-4O Mini, mientras se libera bajo la licencia Apache 2.0. Este desarrollo refleja un compromiso con la colaboración de código abierto y aborda la necesidad de modelos de alto rendimiento pero computacionalmente manejables.

Técnicamente, el modelo QWEN2.5-VL-32B-Instructo ofrece varias mejoras:

Comprensión visual: El modelo se destaca en el reconocimiento de objetos y análisis de textos, gráficos, iconos, gráficos y diseños dentro de las imágenes.
Capacidades de agente: Funciona como un agente visual dinámico capaz de razonar y dirigir herramientas para interacciones informáticas y telefónicas.
Comprensión de video: El modelo puede comprender videos durante una hora y identificar segmentos relevantes, demostrando una localización temporal avanzada.
Localización de objetos: Identifica con precisión objetos en las imágenes generando cuadros o puntos delimitadores, proporcionando salidas JSON estables para coordenadas y atributos.
Generación de salida estructurada: El modelo admite salidas estructuradas para datos como facturas, formularios y tablas, beneficiando las aplicaciones en finanzas y comercio.

Estas características mejoran la aplicabilidad del modelo en varios dominios que requieren una comprensión multimodal matizada.

Las evaluaciones empíricas resaltan las fortalezas del modelo:

Tareas de visión: En el punto de referencia masivo de comprensión de lenguaje múltiple (MMMU), el modelo obtuvo 70.0, superando el 64.5 de QWEN2-VL-72B. En Mathvista, logró 74.7 en comparación con los 70.5 anteriores. En particular, en OCRBenchV2, el modelo obtuvo 57.2/59.1, una mejora significativa sobre los 47.8/46.1 anteriores. En las tareas de control de Android, logró 69.6/93.3, excediendo el anterior 66.4/84.4.
Tareas de texto: El modelo demostró un rendimiento competitivo con una puntuación de 78.4 en MMLU, 82.2 en matemáticas y un impresionante 91.5 en modelos humaneval y superiores a los modelos superiores a GPT-4O en ciertas áreas.

Estos resultados subrayan la competencia equilibrada del modelo en diversas tareas.

En conclusión, el instructo QWEN2.5-VL-32B representa un avance significativo en el modelado en idioma de visión, logrando una mezcla armoniosa de rendimiento y eficiencia. Su disponibilidad de código abierto bajo la licencia Apache 2.0 alienta a la comunidad global de IA a explorar, adaptarse y aprovechar este modelo robusto, potencialmente acelerando la innovación y la aplicación en varios sectores.

Verificar el Pesas de modelos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

QWEN libera el qwen2.5-vl-32b-instructo: un parámetro 32B VLM que supera QWEN2.5-VL-72B y otros modelos como GPT-4O Mini

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cree un canal completo de evaluación y observabilidad de Langfuse para seguimiento, gestión rápida, puntuación y experimentos

NVIDIA AI lanza Gated DeltaNet-2: una capa de atención lineal que desacopla el borrado y la escritura en la regla delta

Microsoft Research lanza Webwright: un marco de agente web nativo de terminal que obtiene una puntuación del 60,1 % en Odysseys, frente al 33,5 % de la base GPT-5.4

You missed

Miles de pétalos de rosas rojas caen desde la cúpula del Panteón de Roma « Euro Weekly News

Blog de chismes deportivos n.° 1 en el mundo

Los sueños épicos están dejando a la gente agotada y angustiada

ACTIVISTAS EN BILBAO | Saar tacha a Sánchez de “hipócrita” por trato de la Ertzaintza a activistas de la Flotilla