Investigadores de la Universidad de Washington y Google han desarrollado tecnología de destilación paso a paso para entrenar un modelo de aprendizaje automático pequeño dedicado con menos datos

En los últimos años, los grandes modelos de lenguaje (LLM) han revolucionado el campo del procesamiento del lenguaje natural, permitiendo capacidades de aprendizaje sin precedentes y de pocas oportunidades. Sin embargo, su implementación en aplicaciones del mundo real se ha visto obstaculizada por sus inmensas demandas computacionales. Un solo LLM de 175 mil millones de parámetros requiere la asombrosa cantidad de 350 GB de memoria GPU e infraestructura especializada. Dado que los modelos de última generación actuales cuentan con más de 500 mil millones de parámetros, estos requisitos hacen que los LLM sean inaccesibles para muchos equipos de investigación, particularmente aquellos con necesidades de rendimiento de baja latencia.

Para abordar este desafío de implementación, los investigadores han recurrido a modelos especializados más pequeños, entrenados mediante ajuste fino o destilación. El ajuste, si bien es eficaz, depende de etiquetas generadas por humanos, costosas y que consumen mucho tiempo. La destilación, por otro lado, exige grandes cantidades de datos sin etiquetar, que pueden ser difíciles de obtener.

En un estudio innovador realizado por un equipo de investigación de Google y la Universidad de Washington presentado en ACL2023, los autores presentaron “Destilar paso a paso”, un mecanismo novedoso diseñado para mitigar el equilibrio entre el tamaño del modelo y el costo de la recopilación de datos. Este enfoque innovador depende de extraer fundamentos informativos en lenguaje natural, o pasos de razonamiento intermedio, de los LLM. Estos fundamentos sirven como supervisión adicional y más rica en el entrenamiento de modelos de tareas específicas más pequeños junto con etiquetas de tareas estándar.

Los investigadores describen un proceso de dos etapas para implementar la destilación paso a paso. En primer lugar, emplean el estímulo CoT para extraer fundamentos de un LLM, lo que permite que el modelo genere fundamentos para entradas invisibles. Posteriormente, estos fundamentos se integran en el entrenamiento de modelos pequeños utilizando un marco de aprendizaje multitarea, con prefijos de tareas que guían la diferenciación del modelo entre predicción de etiquetas y generación de fundamentos.

En una serie de experimentos, se utilizó un LLM de parámetro 540B, junto con modelos T5 para tareas posteriores específicas de cada tarea. Destilling Step-by-Step mostró mejoras de rendimiento notables con requisitos de datos significativamente reducidos. Por ejemplo, en el conjunto de datos e-SNLI, el método superó el ajuste fino estándar con solo el 12,5 % del conjunto de datos completo. Se observaron reducciones similares en el tamaño del conjunto de datos en varias tareas de PNL, incluidas ANLI, CQA y SVAMP.

Además, Distilling Step-by-Step logró un rendimiento superior utilizando tamaños de modelo considerablemente más pequeños en comparación con los LLM impulsados ​​por CoT de pocos disparos. Por ejemplo, en el conjunto de datos e-SNLI, un modelo 220M T5 superó el rendimiento de un 540B PaLM. En ANLI, un modelo 770M T5 superó a un 540B PaLM en más de 700 veces, lo que demuestra el inmenso potencial para ganar eficiencia.

En particular, Distilling Step-by-Step demostró su capacidad para superar a los LLM de pocas oportunidades utilizando modelos significativamente más pequeños y menos datos. Por ejemplo, en ANLI, un modelo 770M T5 superó el rendimiento de un 540B PaLM utilizando solo el 80 % del conjunto de datos completo, una hazaña inalcanzable mediante un ajuste fino estándar.

En conclusión, Distilling Step-by-Step presenta un paradigma innovador para entrenar modelos pequeños y específicos de tareas. Al extraer los fundamentos de los LLM, este enfoque no solo reduce los datos necesarios para el entrenamiento del modelo, sino que también permite el uso de modelos significativamente más pequeños. Esta técnica innovadora revolucionará el campo del procesamiento del lenguaje natural, haciendo que los modelos de lenguaje avanzados sean más accesibles y prácticos para una gama más amplia de aplicaciones.


Revisar la Papel y Artículo de Google sobre IA. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Niharika es pasante de consultoría técnica en Marktechpost. Es estudiante de tercer año y actualmente cursa su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos avances en estos campos.