Microsoft AI propone BitNet Distillation (BitDistill): una canalización liviana que ofrece hasta 10 veces más ahorro de memoria y aproximadamente 2,65 veces más velocidad de CPU

Microsoft Research propone BitNet Distillation, un proceso que convierte los LLM de precisión total existentes en estudiantes BitNet de 1,58 bits para tareas específicas, manteniendo al mismo tiempo una precisión cercana a la del profesor FP16 y mejorando la eficiencia de la CPU. El método combina el refinamiento arquitectónico basado en SubLN, el entrenamiento previo continuo y la destilación de señales duales de logits y relaciones de atención de múltiples cabezas. Los resultados informados muestran un ahorro de memoria de hasta 10 veces y una inferencia de CPU aproximadamente 2,65 veces más rápida, con métricas de tareas comparables a las de FP16 en múltiples tamaños.

¿Qué cambia la destilación BitNet?

La comunidad ya demostró que BitNet b1.58 puede igualar la calidad de precisión total cuando se entrena desde cero, pero convertir un modelo FP16 previamente entrenado directamente a 1,58 bits a menudo pierde precisión y la brecha crece a medida que aumenta el tamaño del modelo. BitNet Distillation aborda este problema de conversión para una implementación práctica en sentido descendente. Está diseñado para preservar la precisión y, al mismo tiempo, ofrecer pesos ternarios compatibles con la CPU con activaciones INT8.

Etapa 1: refinamiento del modelado con SubLN

Los modelos de bits bajos sufren de una gran variación de activación. El equipo de investigación inserta la normalización SubLN dentro de cada bloque Transformer, específicamente antes de la proyección de salida del módulo MHSA y antes de la proyección de salida del FFN. Esto estabiliza las escalas de estados ocultos que fluyen hacia proyecciones cuantificadas, lo que mejora la optimización y la convergencia una vez que los pesos son ternarios. Las curvas de pérdida de entrenamiento en la sección de análisis respaldan este diseño.

Etapa 2: Entrenamiento previo continuo para adaptar la distribución del peso.

El ajuste fino de tareas directas a 1,58 bits le da al estudiante solo una pequeña cantidad de tokens de tareas, lo que no es suficiente para remodelar la distribución de peso de FP16 para restricciones ternarias. BitNet Distillation realiza un entrenamiento previo breve y continuo en un corpus general; el equipo de investigación utiliza 10 mil millones de tokens del corpus FALCON para impulsar los pesos hacia distribuciones similares a BitNet. La visualización muestra la masa concentrándose cerca de los límites de transición, lo que hace que pequeños gradientes inviertan los pesos entre [-1, 0, 1] durante el entrenamiento de tareas posteriores. Esto mejora la capacidad de aprendizaje sin una ejecución previa completa.

Etapa 3: ajuste fino basado en destilación con dos señales

El estudiante aprende del profesor de FP16 utilizando la destilación logits y la destilación de relaciones de autoatención de múltiples cabezales. La ruta logits utiliza KL suavizado por temperatura entre las distribuciones de tokens de maestros y estudiantes. El camino de la atención sigue las formulaciones MiniLM y MiniLMv2, que transfieren relaciones entre Q, K, V sin requerir el mismo número de cabezas y permiten elegir una sola capa para destilar. Las ablaciones muestran que combinar ambas señales funciona mejor y que seleccionar una capa bien elegida preserva la flexibilidad.

Entendiendo los resultados

El equipo de investigación evalúa la clasificación, MNLI, QNLI, SST 2 y el resumen en el conjunto de datos de CNN/DailyMail. Compara tres configuraciones: ajuste fino de tareas FP16, ajuste fino directo de tareas de 1,58 bits y destilación BitNet. La Figura 1 muestra que BitNet Distillation coincide con la precisión de FP16 para las redes troncales Qwen3 en 0.6B, 1.7B, 4B, mientras que la línea base directa de 1.58 bits se retrasa más a medida que crece el tamaño del modelo. En la CPU, los tokens por segundo mejoran aproximadamente 2,65 veces y la memoria disminuye aproximadamente 10 veces para el estudiante. El equipo de investigación cuantifica las activaciones en INT8 y utiliza el Estimador directo para gradientes a través del cuantificador.

https://arxiv.org/pdf/2510.13998

El marco es compatible con métodos de cuantificación posteriores al entrenamiento, como GPTQ y AWQ, que proporcionan ganancias adicionales además del proceso. Destilar de un maestro más fuerte ayuda más, lo que sugiere emparejar estudiantes pequeños de 1,58 bits con maestros FP16 más grandes cuando estén disponibles.

Conclusiones clave

BitNet Distillation es una canalización de 3 etapas, inserción SubLN, capacitación previa continua y destilación dual de logits y relaciones de atención de múltiples cabezas. La investigación informa una precisión cercana a FP16 con una memoria aproximadamente 10 veces menor y una inferencia de CPU aproximadamente 2,65 veces más rápida para estudiantes de 1,58 bits. El método transfiere relaciones de atención utilizando objetivos de estilo MiniLM y MiniLMv2, que no requieren recuentos de personas coincidentes. Las evaluaciones cubren MNLI, QNLI, SST 2 y CNN/DailyMail, e incluyen backbones Qwen3 con parámetros 0.6B, 1.7B y 4B. La implementación apunta a pesos ternarios con activaciones INT8, con núcleos de CPU y GPU optimizados disponibles en el repositorio oficial de BitNet.

BitNet Distillation es un paso pragmático hacia la implementación de 1,58 bits sin un reentrenamiento completo; el diseño de tres etapas, SubLN, entrenamiento previo continuo y destilación de atención de la familia MiniLM, se asigna claramente a modos de falla conocidos en cuantificación extrema. La reducción de memoria de 10 veces y la aceleración de la CPU de aproximadamente 2,65 veces con una precisión cercana a FP16 indican un valor de ingeniería sólido para objetivos locales y de borde. La dependencia de la destilación de la relación de atención está bien fundamentada en trabajos anteriores de MiniLM, lo que ayuda a explicar la estabilidad de los resultados. La presencia de bitnet.cpp con núcleos de CPU y GPU optimizados reduce el riesgo de integración para los equipos de producción.

Consulte el documento técnico y el repositorio de GitHub. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.