Microsoft AI presenta Sigma: un modelo de lenguaje grande y eficiente adaptado para la optimización de infraestructura de IA

El avance de la inteligencia artificial (AI) y el aprendizaje automático (ML) ha permitido un progreso transformador en diversos campos. Sin embargo, el “dominio del sistema”, que se centra en optimizar y gestionar la infraestructura de IA fundamental, sigue siendo relativamente poco exagerado. Este dominio implica tareas críticas, como diagnosticar problemas de hardware, optimizar las configuraciones, administrar cargas de trabajo y evaluar el rendimiento del sistema. Estas tareas a menudo presentan desafíos significativos debido a su complejidad y dependencia de una comprensión profunda del hardware, el software y los datos. Los enfoques tradicionales o los modelos de IA de propósito general luchan para abordar estos desafíos de manera efectiva, lo que lleva a procesos intensivos en recursos y propensos a errores. En consecuencia, existe una necesidad apremiante de soluciones adaptadas específicamente a las demandas del dominio del sistema.

Para abordar estos desafíos, Microsoft ha desarrollado SIGMAa modelo de lenguaje grande Diseñado específicamente para el dominio del sistema. SIGMA presenta una arquitectura innovadora que incluye el mecanismo de atención diferencial de la consulta-llave (DIFFQKV) y los beneficios de un pretraben extenso en datos específicos del sistema. DiffQKV optimiza la eficiencia de inferencia mediante la adopción de estrategias personalizadas para los componentes de consulta (Q), clave (k) y valor (v) del mecanismo de atención. A diferencia de los enfoques tradicionales, que comprimen estos componentes de manera uniforme, DiffQKV aplica una compresión selectiva. Esto implica la compresión agresiva de componentes clave mientras ahorra componentes de valor para mantener el rendimiento. El modelo también emplea dimensiones Q aumentadas, mejorando su capacidad de representación sin afectar significativamente la velocidad de inferencia.

El pre-entrenamiento de Sigma incorpora 6 billones de tokens, incluidos 19.5 mil millones de tokens de fuentes específicas del dominio del sistema y 1 billón de tokens sintetizados y reescritos. Esta capacitación centrada asegura que Sigma se desempeñe a la par con los modelos de vanguardia en los dominios generales, al tiempo que se destaca en tareas específicas del sistema. Para evaluar sus capacidades, Microsoft introdujo Aimicius, un punto de referencia diseñado específicamente para tareas relacionadas con el sistema. El rendimiento de Sigma en Aimicius demuestra mejoras sustanciales, superando a GPT-4 con una mejora absoluta de hasta 52.5%.

Detalles y beneficios técnicos

En el núcleo de la innovación de Sigma está el mecanismo de atención de Diffqkv. Este mecanismo aprovecha la escasez en los puntajes de atención para recuperar selectivamente los componentes de valor durante la inferencia, reduciendo el uso de la memoria mientras mantiene el rendimiento. Estas optimizaciones producen una mejora del 33.36% en la velocidad de la inferencia en comparación con los mecanismos de atención de garantía agrupada convencional. Además, las dimensiones Q aumentadas de Sigma mejoran su capacidad de representación sin agregar sobrecarga de memoria significativa, ya que los cabezales de consulta no requieren almacenamiento en caché durante la inferencia.

Sigma emplea una configuración de cabeza desequilibrada, con menos cabezales clave en comparación con la consulta y los cabezales de valor. Esto reduce la huella de memoria del caché KV al tiempo que preserva el rendimiento. Por ejemplo, la disminución del número de cabezas clave al 25% de los cabezales de valor da como resultado una pérdida de rendimiento insignificante. Del mismo modo, a la mitad de las dimensiones de los componentes clave logran la compresión sin comprometer la precisión.

El proceso de capacitación del modelo implicó una cuidadosa curación de datos, identificando 15 categorías de fuentes primarias de más de 120 sitios web relacionados con el sistema. Las fuentes de datos incluyeron blogs técnicos, foros de desarrolladores, publicaciones de desbordamiento de pila y documentos académicos, lo que resultó en un conjunto de datos diverso e integral. Esta sólida base de entrenamiento permite a Sigma sobresalir en tareas como la generación de línea de comandos, la evaluación comparativa de infraestructura, la optimización de la topología de red y la traducción del lenguaje de consulta de lenguaje natural a Kusto (NL2KQL).

Resultados e ideas

El rendimiento de Sigma en el punto de referencia de Aimicius subraya su efectividad en el dominio del sistema. El punto de referencia abarca cuatro tareas principales: CMDGEN, Infrawise, Optiflow y NL2KQL. En CMDGEN, Sigma demuestra una alta precisión en la generación de líneas de comando relacionadas con GPU. Su rendimiento en Infrawise, que implica recuperar los resultados de referencia, refleja su fuerte retiro y precisión en la identificación de configuraciones y cargas de trabajo relevantes.

En Optiflow, Sigma muestra su capacidad para optimizar las topologías de red para las configuraciones de múltiples GPU, logrando reducciones medibles en la latencia. Del mismo modo, en NL2KQL, Sigma traduce las instrucciones del lenguaje natural en el lenguaje de consulta KUSTO con una precisión notable y adherencia a los estándares de sintaxis.

La eficiencia es una característica definitoria de Sigma. Las evaluaciones revelan ganancias significativas en el uso de la memoria y la velocidad computacional, particularmente para escenarios de contexto largo. Por ejemplo, las optimizaciones de caché de KV de Sigma permiten una reducción del 33% en el tiempo computacional durante la generación de secuencia larga en comparación con los modelos estándar. Esta eficiencia permite a Sigma procesar tamaños de lotes más grandes y secuencias más largas, lo que lo hace bien adecuado para tareas prácticas del sistema que requieren un manejo extenso de contexto.

Conclusión

Sigma representa una aplicación reflexiva y práctica de modelos de idiomas grandes para el dominio del sistema. Al abordar los desafíos únicos de las tareas relacionadas con el sistema a través de innovaciones como el mecanismo de atención DiffQKV y la capacitación específica del dominio, Sigma ofrece una solución especializada que equilibra la eficiencia y el rendimiento. Sus logros en el punto de referencia de Aimicius destacan su potencial como una herramienta valiosa para administrar y optimizar la infraestructura de IA. A medida que el dominio del sistema gana prominencia, los avances de Sigma ofrecen un modelo convincente para abordar las complejidades inherentes a este campo.

Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarkTechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

📄 Conoce ‘altura’: la única herramienta de gestión de proyectos autónomos (patrocinada)

Microsoft AI presenta Sigma: un modelo de lenguaje grande y eficiente adaptado para la optimización de infraestructura de IA

ByEquipo de 7 minutos

Detalles y beneficios técnicos

Resultados e ideas

Conclusión

By Equipo de 7 minutos

Related Post

Conozca Talkie-1930: un LLM de peso abierto 13B capacitado en textos en inglés anteriores a 1931 para el razonamiento histórico y la investigación de generalización

¡Correlación no significa causalidad! ¿Pero qué significa?

Los 10 principales modelos físicos de IA que impulsarán a los robots del mundo real en 2026

You missed

El acuerdo de deuda de 830 millones de dólares de Mistral es el que cambia la historia de la IA en Europa

Se han perdido tres millones de asientos: los recortes de Ryanair afectan las rutas españolas para los turistas irlandeses – The Leader

¿Qué es la belleza del cisne? El espejo de IA detrás de la despedida de soltera de Adquired Style

Conozca Talkie-1930: un LLM de peso abierto 13B capacitado en textos en inglés anteriores a 1931 para el razonamiento histórico y la investigación de generalización