Microsoft lanza Phi-4-Reasoning-Vision-15B: un modelo multimodal compacto para la comprensión de matemáticas, ciencias y GUI

Microsoft ha lanzado Phi-4-reasoning-vision-15B, un modelo de razonamiento multimodal de peso abierto de 15 mil millones de parámetros diseñado para tareas de imágenes y texto que requieren tanto percepción como razonamiento selectivo. Es un modelo compacto creado para equilibrar la calidad del razonamiento, la eficiencia informática y los requisitos de datos de entrenamiento, con particular fortaleza en el razonamiento científico y matemático y la comprensión de las interfaces de usuario.

https://arxiv.org/pdf/2603.03975

¿Sobre qué se basa el modelo?

Phi-4-reasoning-vision-15B combina la columna vertebral del lenguaje Phi-4-Reasoning con el codificador de visión SigLIP-2 utilizando una arquitectura de fusión media. En esta configuración, el codificador de visión primero convierte imágenes en tokens visuales, luego esos tokens se proyectan en el espacio de incrustación del modelo de lenguaje y son procesados por el modelo de lenguaje previamente entrenado. Este diseño actúa como una compensación práctica: preserva un sólido razonamiento intermodal y al mismo tiempo mantiene manejables los costos de capacitación e inferencia en comparación con diseños de fusión temprana más pesados.

¿Por qué Microsoft optó por el modelo más pequeño?

Muchos modelos recientes de lenguaje de visión han aumentado en el recuento de parámetros y el uso de tokens, lo que aumenta tanto la latencia como el costo de implementación. Phi-4-reasoning-vision-15B se creó como una alternativa más pequeña que aún maneja cargas de trabajo multimodales comunes sin depender de conjuntos de datos de entrenamiento extremadamente grandes o una generación excesiva de tokens de tiempo de inferencia. El modelo se entrenó en 200 mil millones de tokens multimodales, basándose en Phi-4-Reasoning, que se entrenó en 16 mil millones de tokens, y finalmente en el modelo base Phi-4, que se entrenó en 400 mil millones de tokens únicos. Microsoft contrasta esto con los más de 1 billón de tokens utilizados para entrenar varios modelos multimodales recientes como Qwen 2.5 VL, Qwen 3 VL, Kimi-VL y Gemma 3.

La percepción de alta resolución fue una elección de diseño central

El equipo de Microsoft explica una de las lecciones técnicas más útiles en su informe técnico: el razonamiento multimodal a menudo falla porque falla primero la percepción. Los modelos pueden perder la respuesta no porque carezcan de capacidad de razonamiento, sino porque no logran extraer los detalles visuales relevantes de imágenes densas como capturas de pantalla, documentos o interfaces con pequeños elementos interactivos.

Phi-4-reasoning-vision-15B utiliza un codificador de visión de resolución dinámica con hasta 3600 tokens visuales, cuyo objetivo es respaldar la comprensión de alta resolución para tareas como la conexión a tierra de la GUI y el análisis detallado de documentos. El equipo de Microsoft afirma que los codificadores de alta resolución y resolución dinámica producen mejoras constantes y señala explícitamente que la percepción precisa es un requisito previo para un razonamiento de alta calidad.

Razonamiento mixto en lugar de forzar el razonamiento en todas partes

Una segunda decisión de diseño importante es la estrategia de entrenamiento mixta de razonamiento y no razonamiento del modelo. En lugar de forzar un razonamiento en cadena de pensamiento para todas las tareas, el equipo de Microsoft entrenó el modelo para cambiar entre dos modos. Las muestras de razonamiento incluyen… rastros, mientras que las muestras sin razonamiento comienzan con tareas centradas en la percepción, como subtítulos, conexión a tierra, OCR y VQA simple, y se utilizan para ellas. Los datos de razonamiento representan aproximadamente el 20% de la combinación general de entrenamiento.

El objetivo de esta configuración híbrida es permitir que el modelo responda directamente a tareas en las que un razonamiento más prolongado añade latencia sin mejorar la precisión, y al mismo tiempo invoca un razonamiento estructurado en tareas como matemáticas y ciencias. El equipo de Microsoft también observa una limitación importante: el límite entre estos modos se aprende implícitamente, por lo que el cambio no siempre es óptimo. Los usuarios pueden anular el comportamiento predeterminado mediante solicitudes explícitas con tokens o.

¿Qué áreas son más fuertes?

El equipo de Microsoft destaca dos áreas de aplicación principales. El primero es el razonamiento científico y matemático sobre información visual, incluidas ecuaciones escritas a mano, diagramas, cuadros, tablas y documentos cuantitativos. El segundo son las tareas de agente de uso de computadora, donde el modelo interpreta el contenido de la pantalla, localiza elementos de la GUI y admite la interacción con interfaces de escritorio, web o móviles.

Resultados de referencia

El equipo de Microsoft informa los siguientes puntajes de referencia para Phi-4-reasoning-vision-15B: 84,8 en AI2DTEST, 83,3 en ChartQATEST, 44,9 en MathVerseMINI, 36,2 en MathVisionMINI, 75,2 en MathVistaMINI, 54,3 en MMMUVAL, 64,5 en MMStar, 76,0 en OCRBench y 88.2 en ScreenSpotv2. El informe técnico también señala que estos resultados se generaron utilizando Eureka ML Insights y VLMEvalKit, con configuraciones de evaluación fijas, y que el equipo de Microsoft los presenta como resultados de comparación en lugar de afirmaciones de clasificación.

Conclusiones clave

Phi-4-reasoning-vision-15B es un modelo multimodal de peso abierto 15B construido combinando Phi-4-Reasoning con el codificador de visión SigLIP-2 en una arquitectura de fusión media. El equipo de Microsoft diseñó el modelo para un razonamiento multimodal compacto, centrándose en las matemáticas, las ciencias, la comprensión de documentos y la base de la GUI, en lugar de escalarlo a un número de parámetros mucho mayor. La percepción visual de alta resolución es una parte central del sistema, con soporte para codificación de resolución dinámica y hasta 3600 tokens visuales, lo que ayuda en capturas de pantalla densas, documentos y tareas con mucha interfaz. El modelo utiliza entrenamiento mixto de razonamiento y no razonamiento, lo que le permite cambiar entre modos y dependiendo de si una tarea necesita razonamiento explícito o resultados directos basados en la percepción. Los puntos de referencia informados por Microsoft muestran un rendimiento sólido para su tamaño, incluidos resultados en AI2DTEST, ChartQATEST, MathVistaMINI, OCRBench y ScreenSpotv2, lo que respalda su posicionamiento como un modelo de razonamiento de visión y lenguaje compacto pero capaz.

Consulte los pesos de papel, repositorio y modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Microsoft lanza Phi-4-Reasoning-Vision-15B: un modelo multimodal compacto para la comprensión de matemáticas, ciencias y GUI

ByEquipo de 7 minutos

¿Sobre qué se basa el modelo?

¿Por qué Microsoft optó por el modelo más pequeño?

La percepción de alta resolución fue una elección de diseño central

Razonamiento mixto en lugar de forzar el razonamiento en todas partes

¿Qué áreas son más fuertes?

Resultados de referencia

Conclusiones clave

By Equipo de 7 minutos

Related Post

3.6 Flash, 3.5 Flash-Lite y 3.5 Flash Cyber

Fireworks AI lanza Fireworks Nexus: una capa de enrutamiento directo y control de costos que traslada el trabajo de codificación de rutina a modelos abiertos

Explicación de MCP: cómo los agentes de IA modernos se conectan con el mundo real

You missed

¿Cómo pasó un país centroamericano más pequeño que Virginia Occidental de tener una de las peores tasas de deforestación del planeta a duplicar su cubierta forestal en una sola generación?

Ex activista del Partido Demócrata revela el momento en que supo que había terminado con la izquierda * The Gateway Pundit * por Mike LaChance

Drivalia consigue una financiación del BEI de 48 millones de euros para impulsar la movilidad eléctrica en Italia y Finlandia

El Reino Unido mira a Torrevieja mientras la industria del agua adopta la desalinización – The Leader