Microsoft libera Phi-4-Mini-Flash-Razing: Razonamiento eficiente de contexto largo con arquitectura compacta

Phi-4-Mini-Flash-Razoningla última incorporación a la familia Model Model Phi-4 de Microsoft, es un modelo de lenguaje abierto y liviano diseñado para sobresalir en un razonamiento de contexto a largo plazo mientras mantiene una alta eficiencia de inferencia. Liberado Cara abrazadaeste modelo de parámetros 3.8B es una versión destilada de Phi-4-Mini, ajustada para tareas de razonamiento densos como la resolución de problemas de matemáticas y la respuesta de preguntas múltiples. Construido usando el nuevo de Microsoft Sambay La arquitectura de decodificador de decodificador-híbrido, logra un rendimiento de última generación entre modelos compactos y opera hasta 10 × más rápido que su predecesor en tareas de larga generación.

Arquitectura: la memoria cerrada cumple con la decodificación híbrida

En el núcleo de la realización de phi-4-Mini-flash está el Sambay Arquitectura, un nuevo modelo de decodificador de decodificador que integra Modelos de espacio de estado (SSMS) con capas de atención utilizando un mecanismo liviano llamado Unidad de memoria cerrada (GMU). Esta estructura permite un intercambio de memoria eficiente entre capas, reduciendo significativamente la latencia de inferencia en escenarios de contexto largo y de larga generación.

A diferencia de las arquitecturas basadas en transformadores que dependen en gran medida de los cálculos de atención intensivos en memoria, Sambay aprovechan Samba (Una arquitectura SSM híbrida) en el autodecodificador y reemplaza aproximadamente la mitad de las capas de atención cruzada en el transmisor con GMU. Las GMU sirven como funciones baratas de activación de elementos que reutilizan el estado oculto de la capa SSM final, evitando así el cálculo redundante. Esto da como resultado una complejidad previa a la previa tiempo de tiempo lineal y una menor E/S de decodificación, lo que produce aceleración sustancial durante la inferencia.

Capacidades de capacitación y capacidades de razonamiento

El modelo Phi-4-Mini-Flash está previamente capacitado en tokens 5T de datos reales sintéticos y filtrados de alta calidad, de acuerdo con el resto de la familia Phi-4-Mini. Publicar previamente, se sufre Multi-etapas supervisadas (SFT) y Optimización de preferencias directas (DPO) Uso de conjuntos de datos de instrucciones centrados en el razonamiento. En particular, a diferencia de la realización de Phi-4-Mini, excluye por completo el aprendizaje de refuerzo (RLHF).

A pesar de esto, la realización de Phi-4-Mini-Flash supera a Phi-4-Mini-Razoning en un conjunto de tareas de razonamiento complejas. En el punto de referencia de Math500, logra una precisión de Pass@1 del 92.45%, superan a Phi-4-Mini-Razoning (91.2%) y superando otros modelos abiertos como QWEN-1.5B y Bespoke-Stratos-7B. En AIME24/25, también muestra fuertes ganancias, con más del 52% de precisión en AIME24.

Este salto de rendimiento se atribuye a la capacidad de la arquitectura para Generación larga de la cadena de pensamiento (COT). Con 64k de soporte de longitud de contexto e inferencia optimizada bajo el vllm Marco, el modelo puede generar y razonar a través de contextos de múltiples mil token sin cuellos de botella. En los puntos de referencia de latencia con indicadores de 2k-token y generaciones de 32k-token, Phi-4-Mini-Flash-Razoning ofrece hasta 10 × rendimiento más alto que su predecesor.

Procesamiento eficiente de contexto largo

Las ganancias de eficiencia en la realización de flashes Phi-4-Mini no son solo teóricas. A través del diseño del decodificador decodificador-hibrídico, el modelo logra un rendimiento competitivo en puntos de referencia de contexto largo como la agenda y la regla. Por ejemplo, con un atención de la ventana deslizante (SWA) Tamaño tan pequeño como 256, mantiene una alta precisión de recuperación, lo que indica que las dependencias de token de largo alcance están bien capturadas a través de SSMS y el intercambio de memoria basado en GMU.

Estas innovaciones arquitectónicas conducen a una reducción de la sobrecarga de la memoria y la memoria. Por ejemplo, durante la decodificación, las capas de GMU reemplazan las operaciones de atención que de otro modo costarían el tiempo O (n · d) por token, reduciéndolo a O (D), donde N es la longitud de la secuencia y D es una dimensión oculta. El resultado es la capacidad de inferencia en tiempo real incluso en escenarios de nivel múltiple o de documentos.

Abrir pesas y casos de uso

Microsoft ha obtenido los pesos y la configuración del modelo a través de la cara abrazada, proporcionando acceso completo a la comunidad. El modelo admite la longitud de contexto de 64k, opera bajo los tiempos de ejecución de cara de abrazo estándar y VLLM, y está optimizado para el rendimiento de token rápido en las GPU A100.

Los casos de uso potenciales para la conducción de flash Phi-4-Mini incluyen:

  • Razonamiento matemático (por ejemplo, SAT, problemas a nivel de AIME)
  • QA de múltiples saltos
  • Análisis de documentos legales y científicos
  • Agentes autónomos con memoria a largo plazo
  • Sistemas de chat de alto rendimiento

Su combinación de acceso abierto, capacidad de razonamiento e inferencia eficiente lo convierte en un fuerte candidato para la implementación en entornos donde los recursos de cálculo están limitados, pero la complejidad de la tarea es alta.

Conclusión

Phi-4-Mini-Flash-Razoning ejemplifica cómo la innovación arquitectónica (modelos híbridos particularmente híbridos que aprovechan los SSM y la activación eficiente) pueden generar ganancias transformadoras en el rendimiento de razonamiento sin el tamaño o el costo del modelo de globo. Marca una nueva dirección en un modelado de lenguaje de contexto largo y eficiente, allanando el camino para los agentes de razonamiento en tiempo real y en el dispositivo y alternativas escalables de código abierto a LLM comerciales.


Mira el Papel, Codos, Modelo en la cara abrazada y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo, YouTube y Spotify Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.