Microsoft ha lanzado Phi-4-reasoning-vision-15B, un modelo de razonamiento multimodal de peso abierto de 15 mil millones de parámetros diseñado para tareas de imágenes y texto que requieren tanto percepción como razonamiento selectivo. Es un modelo compacto creado para equilibrar la calidad del razonamiento, la eficiencia informática y los requisitos de datos de entrenamiento, con particular fortaleza en el razonamiento científico y matemático y la comprensión de las interfaces de usuario.
¿Sobre qué se basa el modelo?
Phi-4-reasoning-vision-15B combina la columna vertebral del lenguaje Phi-4-Reasoning con el codificador de visión SigLIP-2 utilizando una arquitectura de fusión media. En esta configuración, el codificador de visión primero convierte imágenes en tokens visuales, luego esos tokens se proyectan en el espacio de incrustación del modelo de lenguaje y son procesados por el modelo de lenguaje previamente entrenado. Este diseño actúa como una compensación práctica: preserva un sólido razonamiento intermodal y al mismo tiempo mantiene manejables los costos de capacitación e inferencia en comparación con diseños de fusión temprana más pesados.
¿Por qué Microsoft optó por el modelo más pequeño?
Muchos modelos recientes de lenguaje de visión han aumentado en el recuento de parámetros y el uso de tokens, lo que aumenta tanto la latencia como el costo de implementación. Phi-4-reasoning-vision-15B se creó como una alternativa más pequeña que aún maneja cargas de trabajo multimodales comunes sin depender de conjuntos de datos de entrenamiento extremadamente grandes o una generación excesiva de tokens de tiempo de inferencia. El modelo se entrenó en 200 mil millones de tokens multimodales, basándose en Phi-4-Reasoning, que se entrenó en 16 mil millones de tokens, y finalmente en el modelo base Phi-4, que se entrenó en 400 mil millones de tokens únicos. Microsoft contrasta esto con los más de 1 billón de tokens utilizados para entrenar varios modelos multimodales recientes como Qwen 2.5 VL, Qwen 3 VL, Kimi-VL y Gemma 3.
La percepción de alta resolución fue una elección de diseño central
El equipo de Microsoft explica una de las lecciones técnicas más útiles en su informe técnico: el razonamiento multimodal a menudo falla porque falla primero la percepción. Los modelos pueden perder la respuesta no porque carezcan de capacidad de razonamiento, sino porque no logran extraer los detalles visuales relevantes de imágenes densas como capturas de pantalla, documentos o interfaces con pequeños elementos interactivos.
Phi-4-reasoning-vision-15B utiliza un codificador de visión de resolución dinámica con hasta 3600 tokens visuales, cuyo objetivo es respaldar la comprensión de alta resolución para tareas como la conexión a tierra de la GUI y el análisis detallado de documentos. El equipo de Microsoft afirma que los codificadores de alta resolución y resolución dinámica producen mejoras constantes y señala explícitamente que la percepción precisa es un requisito previo para un razonamiento de alta calidad.
Razonamiento mixto en lugar de forzar el razonamiento en todas partes
Una segunda decisión de diseño importante es la estrategia de entrenamiento mixta de razonamiento y no razonamiento del modelo. En lugar de forzar un razonamiento en cadena de pensamiento para todas las tareas, el equipo de Microsoft entrenó el modelo para cambiar entre dos modos. Las muestras de razonamiento incluyen… rastros, mientras que las muestras sin razonamiento comienzan con tareas centradas en la percepción, como subtítulos, conexión a tierra, OCR y VQA simple, y se utilizan para ellas. Los datos de razonamiento representan aproximadamente el 20% de la combinación general de entrenamiento.
El objetivo de esta configuración híbrida es permitir que el modelo responda directamente a tareas en las que un razonamiento más prolongado añade latencia sin mejorar la precisión, y al mismo tiempo invoca un razonamiento estructurado en tareas como matemáticas y ciencias. El equipo de Microsoft también observa una limitación importante: el límite entre estos modos se aprende implícitamente, por lo que el cambio no siempre es óptimo. Los usuarios pueden anular el comportamiento predeterminado mediante solicitudes explícitas con tokens o.
¿Qué áreas son más fuertes?
El equipo de Microsoft destaca dos áreas de aplicación principales. El primero es el razonamiento científico y matemático sobre información visual, incluidas ecuaciones escritas a mano, diagramas, cuadros, tablas y documentos cuantitativos. El segundo son las tareas de agente de uso de computadora, donde el modelo interpreta el contenido de la pantalla, localiza elementos de la GUI y admite la interacción con interfaces de escritorio, web o móviles.
Resultados de referencia
El equipo de Microsoft informa los siguientes puntajes de referencia para Phi-4-reasoning-vision-15B: 84,8 en AI2DTEST, 83,3 en ChartQATEST, 44,9 en MathVerseMINI, 36,2 en MathVisionMINI, 75,2 en MathVistaMINI, 54,3 en MMMUVAL, 64,5 en MMStar, 76,0 en OCRBench y 88.2 en ScreenSpotv2. El informe técnico también señala que estos resultados se generaron utilizando Eureka ML Insights y VLMEvalKit, con configuraciones de evaluación fijas, y que el equipo de Microsoft los presenta como resultados de comparación en lugar de afirmaciones de clasificación.
Conclusiones clave
Phi-4-reasoning-vision-15B es un modelo multimodal de peso abierto 15B construido combinando Phi-4-Reasoning con el codificador de visión SigLIP-2 en una arquitectura de fusión media. El equipo de Microsoft diseñó el modelo para un razonamiento multimodal compacto, centrándose en las matemáticas, las ciencias, la comprensión de documentos y la base de la GUI, en lugar de escalarlo a un número de parámetros mucho mayor. La percepción visual de alta resolución es una parte central del sistema, con soporte para codificación de resolución dinámica y hasta 3600 tokens visuales, lo que ayuda en capturas de pantalla densas, documentos y tareas con mucha interfaz. El modelo utiliza entrenamiento mixto de razonamiento y no razonamiento, lo que le permite cambiar entre modos y dependiendo de si una tarea necesita razonamiento explícito o resultados directos basados en la percepción. Los puntos de referencia informados por Microsoft muestran un rendimiento sólido para su tamaño, incluidos resultados en AI2DTEST, ChartQATEST, MathVistaMINI, OCRBench y ScreenSpotv2, lo que respalda su posicionamiento como un modelo de razonamiento de visión y lenguaje compacto pero capaz.
Consulte los pesos de papel, repositorio y modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.