OVIS2.5, el último modelo de lenguaje multimodal grande (MLLM) del equipo Aidc-AI de Alibaba, está haciendo olas en la comunidad de IA de código abierto con sus variantes de parámetros 9B y 2B. OVIS2.5 establece nuevos puntos de referencia para el rendimiento y la eficiencia mediante la introducción de avances técnicos orientados a la percepción de la visión de resolución nativa, un razonamiento multimodal profundo y un OCR robusto, que aborda limitaciones de larga data que enfrentan la mayoría de los MLLM en el procesamiento de la información visual de alta detonancia y el razonamiento complejo.
Visión de resolución nativa y razonamiento profundo
Una innovación definitoria en OVIS2.5 es su integración de un transformador de visión de resolución nativa (Navit), que procesa imágenes en sus resoluciones variables originales. A diferencia de los modelos anteriores que se basaban en el revestimiento de mosaico o forzado, a menudo resultando en una pérdida de un contexto global importante y detalles finos, Navit preserva la integridad completa de los cuadros intrincados y las imágenes naturales. Esta actualización permite que el modelo se sobresalga en tareas visualmente densas que van desde diagramas científicos hasta infografías y formas complejas.
Para abordar los desafíos en el razonamiento, OVIS2.5 implementa un plan de estudios que va más allá de la supervisión estándar de la cadena de pensamiento (COT). Sus datos de entrenamiento incluyen muestras de “estilo de pensamiento” para la autocorrección y la reflexión, que culminan en un “modo de pensamiento” opcional en el momento de la inferencia. Los usuarios pueden habilitar este modo (como se discute con entusiasmo en el hilo de Localllama Reddit) para intercambiar tiempos de respuesta más rápidos para una mayor precisión paso a paso y una introspección del modelo. Esto es particularmente beneficioso para las tareas que requieren un análisis multimodal más profundo, como la respuesta de preguntas científicas o la resolución de problemas matemáticos.
Puntos de referencia de rendimiento y resultados de vanguardia
OVIS2.5-9B logra un puntaje promedio de 78.3 en la tabla de clasificación multimodal OpenCompass, lo que lo pone por delante de todos los MLLM de código abierto bajo parámetros 40B; OVIS2.5-2B obtiene 73.9, estableciendo un nuevo estándar para modelos livianos ideales para la inferencia en disposición o restricciones de recursos. Ambos modelos ofrecen resultados excepcionales en dominios especializados, competidores de código abierto líderes en:
- Razonamiento STEM (Mathvista, Mmmu, Wemath)
- OCR y análisis de gráficos (OCRBench V2, Chartqa Pro)
- Visual conects (Refcoco, Refcocog)
- Video y comprensión de múltiples imágenes (Blink, VideoMme) ovis2_5_tech_report.pdfincógnita
Los comentarios técnicos sobre Reddit y X resaltan los notables avances en el procesamiento de OCR y documentos, y los usuarios observan una extracción mejorada de texto en imágenes desordenadas, una comprensión de forma robusta y un soporte flexible para consultas visuales complejas.
Capacitación de alta eficiencia y despliegue escalable
OVIS2.5 optimiza la eficiencia de capacitación de extremo a extremo mediante el empleo de envasado de datos multimodales y el paralelismo híbrido avanzado, entregando una aceleración de 3–4 × en el rendimiento general. Su variante 2B liviana continúa la filosofía de “modelo pequeño, gran rendimiento” de la serie, lo que permite una comprensión multimodal de alta calidad en hardware móvil y dispositivos de borde.
Los modelos OVIS2.5 recientemente lanzados de Alibaba (9B y 2B) marcan un avance en la IA multimodal de código abierto, con puntajes de vanguardia en la tabla de clasificación OpenCompass para modelos con parámetros de 40B. Las innovaciones clave incluyen un transformador de visión de resolución nativa que procesa las imágenes de alta cola de alta cola sin mosaico, y un “modo de pensamiento” opcional que permite un razonamiento autorreflexivo más profundo en tareas complejas. OVIS2.5 sobresale en STEM, OCR, análisis de gráficos y comprensión de video, superando los modelos abiertos anteriores y reduciendo la brecha a la IA patentada. Su capacitación centrada en la eficiencia y su variante 2B liviana hacen que las capacidades multimodales avanzadas sean accesibles tanto para investigadores como para aplicaciones limitadas por recursos.
Mira el Papel técnico y Modelos en la cara abrazada. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.