Los modelos modernos de lenguaje grande ya no se entrenan únicamente con texto sin formato de Internet. Cada vez más, las empresas utilizan potentes modelos de “maestros” para ayudar a formar modelos de “estudiantes” más pequeños o más eficientes. Este proceso, ampliamente conocido como destilación LLM o entrenamiento de modelo a modelo, se ha convertido en una técnica clave para construir modelos de alto rendimiento a un costo computacional más bajo. Meta utilizó su enorme modelo Llama 4 Behemoth para ayudar a entrenar a Llama 4 Scout y Maverick, mientras que Google aprovechó los modelos Gemini durante el desarrollo de Gemma 2 y Gemma 3. De manera similar, DeepSeek destiló capacidades de razonamiento de DeepSeek-R1 en modelos más pequeños basados en Qwen y Llama.
La idea central es simple: en lugar de aprender únicamente de texto escrito por humanos, un modelo de estudiante también puede aprender de los resultados, probabilidades, rastros de razonamiento o comportamientos de otro LLM. Esto permite que los modelos más pequeños hereden capacidades como el razonamiento, el seguimiento de instrucciones y la generación estructurada de sistemas mucho más grandes. La destilación puede ocurrir durante la capacitación previa, donde los modelos de docente y estudiante se entrenan juntos, o durante la capacitación posterior, donde un maestro completamente capacitado transfiere conocimientos a un modelo de estudiante separado.
En este artículo, exploraremos tres enfoques principales utilizados para capacitar un LLM utilizando otro: destilación de etiqueta suave, donde el estudiante aprende de las distribuciones de probabilidad del maestro; Destilación de etiqueta dura, donde el estudiante imita los resultados generados por el maestro; y Co-destilación, donde múltiples modelos aprenden de manera colaborativa compartiendo predicciones y comportamientos durante el entrenamiento.
Destilación de etiqueta blanda
La destilación de etiqueta blanda es una técnica de capacitación en la que un estudiante de LLM más pequeño aprende imitando la distribución de probabilidad de salida de un LLM de maestro más grande. En lugar de entrenar solo en el siguiente token correcto, se entrena al estudiante para que coincida con las probabilidades softmax del profesor en todo el vocabulario. Por ejemplo, si el profesor predice la siguiente ficha con probabilidades como “gato” = 70 %, “perro” = 20 % y “animal” = 10 %, el estudiante aprende no solo la respuesta final, sino también las relaciones y la incertidumbre entre las diferentes fichas. Esta señal más rica a menudo se denomina “conocimiento oscuro” del profesor porque contiene información oculta sobre patrones de razonamiento y comprensión semántica.
La mayor ventaja de la destilación de etiqueta blanda es que permite que los modelos más pequeños hereden capacidades de modelos mucho más grandes y, al mismo tiempo, su implementación sigue siendo más rápida y económica. Dado que el estudiante aprende de la distribución de probabilidad completa del maestro, la capacitación se vuelve más estable e informativa en comparación con el aprendizaje solo con objetivos difíciles de una palabra. Sin embargo, este método también presenta desafíos prácticos. Para generar etiquetas suaves, necesita acceso a los logits o pesos del modelo docente, lo que a menudo no es posible con los modelos de código cerrado. Además, almacenar distribuciones de probabilidad para cada token en vocabularios que contienen más de 100.000 tokens consume mucha memoria en la escala LLM, lo que hace que la destilación pura de etiquetas blandas sea costosa para conjuntos de datos de billones de tokens.
Destilación de etiqueta dura
La destilación de etiqueta dura es un enfoque más simple en el que el estudiante de LLM aprende solo del token de salida final previsto por el modelo del maestro en lugar de su distribución de probabilidad completa. En esta configuración, un modelo de maestro previamente capacitado genera el siguiente token o respuesta más probable, y el modelo de estudiante se entrena utilizando aprendizaje supervisado estándar para reproducir ese resultado. Básicamente, el profesor actúa como un anotador de alta calidad que crea datos de entrenamiento sintéticos para el estudiante. DeepSeek utilizó este enfoque para sintetizar las capacidades de razonamiento de DeepSeek-R1 en modelos Qwen y Llama 3.1 más pequeños.
A diferencia de la destilación de etiqueta blanda, el estudiante no ve las puntuaciones de confianza internas del profesor ni las relaciones simbólicas: sólo aprende la respuesta final. Esto hace que la destilación de etiqueta dura sea mucho más barata y fácil de implementar desde el punto de vista computacional, ya que no es necesario almacenar distribuciones de probabilidad masivas para cada token. También es especialmente útil cuando se trabaja con modelos propietarios de “caja negra” como las API GPT-4, donde los desarrolladores solo tienen acceso al texto generado y no a los logits subyacentes. Si bien las etiquetas duras contienen menos información que las etiquetas blandas, siguen siendo muy efectivas para ajustar instrucciones, conjuntos de datos de razonamiento, generación de datos sintéticos y tareas de ajuste de dominios específicos.
Co-destilación
La co-destilación es un enfoque de capacitación en el que tanto el modelo de maestro como el de estudiante se entrenan juntos en lugar de utilizar un maestro fijo previamente capacitado. En esta configuración, el profesor LLM y el estudiante LLM procesan los mismos datos de entrenamiento simultáneamente y generan sus propias distribuciones de probabilidad softmax. El maestro se entrena normalmente usando las etiquetas duras de la verdad fundamental, mientras que el estudiante aprende haciendo coincidir las etiquetas suaves del maestro con las respuestas correctas reales. Meta utilizó una forma de este enfoque mientras entrenaba a Llama 4 Scout y Maverick junto con el modelo más grande Llama 4 Behemoth.
Un desafío de la codestilación es que el modelo docente no está completamente entrenado durante las primeras etapas, lo que significa que sus predicciones inicialmente pueden ser ruidosas o inexactas. Para superar esto, el estudiante generalmente recibe capacitación utilizando una combinación de pérdida por destilación de etiqueta suave y pérdida de entropía cruzada de etiqueta dura estándar. Esto crea una señal de aprendizaje más estable y al mismo tiempo permite la transferencia de conocimiento entre modelos. A diferencia de la destilación unidireccional tradicional, la co-destilación permite que ambos modelos mejoren juntos durante el entrenamiento, lo que a menudo conduce a un mejor desempeño, una transferencia de razonamiento más sólida y menores brechas de desempeño entre los modelos de maestro y estudiante.
Comparando las tres técnicas de destilación
La destilación de etiqueta blanda transfiere la forma más rica de conocimiento porque el estudiante aprende de la distribución de probabilidad completa del maestro en lugar de solo de la respuesta final. Esto ayuda a que los modelos más pequeños capturen patrones de razonamiento, incertidumbre y relaciones entre tokens, lo que a menudo conduce a un rendimiento general más sólido. Sin embargo, es costoso desde el punto de vista computacional, requiere acceso a los logits o pesos del profesor y resulta difícil de escalar porque almacenar distribuciones de probabilidad para vocabularios masivos consume una memoria enorme.
La destilación con etiqueta dura es más sencilla y práctica. El estudiante sólo aprende de los resultados finales generados por el profesor, lo que lo hace mucho más económico y fácil de implementar. Funciona especialmente bien con modelos propietarios de caja negra, como las API GPT-4, donde las probabilidades internas no están disponibles. Si bien este enfoque pierde parte del “conocimiento oscuro” más profundo presente en las etiquetas suaves, sigue siendo muy eficaz para el ajuste de instrucciones, la generación de datos sintéticos y el ajuste fino de tareas específicas.
La codestilación adopta un enfoque colaborativo en el que los modelos de profesores y estudiantes aprenden juntos durante la formación. El profesor mejora y al mismo tiempo guía al alumno, lo que permite que ambos modelos se beneficien de señales de aprendizaje compartidas. Esto puede reducir la brecha de rendimiento que se observa en los métodos tradicionales de destilación unidireccional, pero también hace que la capacitación sea más compleja ya que las predicciones del profesor son inicialmente inestables. En la práctica, se prefiere la destilación de etiqueta blanda para lograr la máxima transferencia de conocimientos, la destilación de etiqueta dura para lograr escalabilidad y practicidad, y la codestilación para configuraciones de capacitación conjunta a gran escala.

Soy graduado en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.