Qwen AI se lanza QWEN2.5-VL: un poderoso modelo en idioma de visión para la interacción sin interrupciones de la computadora

En el panorama en evolución de la inteligencia artificial, la integración de las capacidades de visión y lenguaje sigue siendo un desafío complejo. Los modelos tradicionales a menudo luchan con tareas que requieren una comprensión matizada de los datos visuales y textuales, lo que lleva a limitaciones en aplicaciones como el análisis de imágenes, la comprensión de video y el uso de herramientas interactivas. Estos desafíos subrayan la necesidad de modelos en idioma de visión más sofisticados que pueden interpretar y responder a la información multimodal sin problemas.

Qwen AI ha introducido QWEN2.5-VL, un nuevo modelo en idioma de visión diseñado para manejar tareas basadas en computadora con una configuración mínima. Sobre la base de su predecesor, QWEN2-VL, esta iteración ofrece una mejor comprensión visual y capacidades de razonamiento. QWEN2.5-VL puede reconocer un amplio espectro de objetos, desde elementos cotidianos como flores y aves hasta elementos visuales más complejos, como texto, gráficos, iconos y diseños. Además, funciona como un asistente visual inteligente, capaz de interpretar e interactuar con herramientas de software en computadoras y teléfonos sin una amplia personalización.

Desde una perspectiva técnica, Qwen2.5-VL incorpora varios avances. Emplea una arquitectura de transformador de visión (VIT) refinada con Swiglu y RMSNORM, alineando su estructura con el modelo de lenguaje Qwen2.5. El modelo admite la resolución dinámica y el entrenamiento de velocidad de cuadro adaptativo, mejorando su capacidad para procesar videos de manera eficiente. Al aprovechar el muestreo de cuadros dinámicos, puede comprender las secuencias y el movimiento temporales, mejorando su capacidad para identificar momentos clave en el contenido de video. Estas mejoras hacen que su visión codifica más eficiente, optimizando las velocidades de entrenamiento e inferencia.

Las evaluaciones de rendimiento indican que QWEN2.5-VL-72B-Instructo logra resultados sólidos en múltiples puntos de referencia, incluidas las matemáticas, la comprensión del documento, la respuesta de las preguntas generales y el análisis de videos. Excelente en el procesamiento de documentos y diagramas y opera de manera efectiva como asistente visual sin requerir el ajuste fino específico de la tarea. Los modelos más pequeños dentro de la familia Qwen2.5-VL también demuestran un rendimiento competitivo, con el instrucciones QWEN2.5-VL-7B superando a GPT-4O-Mini en tareas específicas, y QWEN2.5-VL-3B superan la versión anterior 7B de QWEN2 -Vl, por lo que es una opción convincente para entornos con recursos limitados.

En resumen, QWEN2.5-VL presenta un enfoque refinado para el modelado en idioma de visión, abordando limitaciones previas mejorando la comprensión visual y las capacidades interactivas. Su capacidad para realizar tareas en computadoras y dispositivos móviles sin una configuración extensa lo convierte en una herramienta práctica en aplicaciones del mundo real. A medida que AI continúa evolucionando, modelos como Qwen2.5-VL están allanando el camino para interacciones multimodales más perfectas e intuitivas, cerrando la brecha entre la inteligencia visual y textual.


Verificar el Modelo en la cara abrazada, Pruébalo aquí y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

🚨 [Recommended Read] Nebius AI Studio se expande con modelos de visión, nuevos modelos de idiomas, incrustaciones y Lora (Promocionado)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.