Los modelos de lenguaje grande (LLM) han demostrado similitudes notables con la capacidad de los procesos cognitivos humanos para formar abstracciones y adaptarse a nuevas situaciones. Así como los humanos históricamente han dado sentido a experiencias complejas a través de conceptos fundamentales como la física y las matemáticas, los transformadores autorregresivos ahora muestran capacidades comparables a través del aprendizaje en contexto (ICL). Investigaciones recientes han destacado cómo estos modelos pueden adaptarse a tareas complicadas sin actualizaciones de parámetros, lo que sugiere la formación de abstracciones internas similares a los modelos mentales humanos. Los estudios han comenzado a explorar los aspectos mecanicistas de cómo los LLM previamente capacitados representan conceptos latentes como vectores en sus representaciones. Sin embargo, quedan dudas sobre las razones subyacentes de la existencia de estos vectores de tareas y su eficacia variable entre diferentes tareas.
Los investigadores han propuesto varios marcos teóricos para comprender los mecanismos detrás del aprendizaje en contexto en los LLM. Un enfoque importante considera la ICL a través de un marco bayesiano, sugiriendo un algoritmo de dos etapas que estima la probabilidad y la verosimilitud posteriores. Paralelamente, los estudios han identificado vectores específicos de tareas en los LLM que pueden desencadenar comportamientos ICL deseados. Al mismo tiempo, otras investigaciones han revelado cómo estos modelos codifican conceptos como veracidad, tiempo y espacio como representaciones linealmente separables. A través de técnicas de interpretabilidad mecanicista, como el análisis de mediación causal y los parches de activación, los investigadores han comenzado a descubrir cómo estos conceptos emergen en las representaciones de LLM e influyen en el desempeño de las tareas ICL posteriores, lo que demuestra que los transformadores implementan diferentes algoritmos basados en conceptos inferidos.
Investigadores del Instituto de Tecnología de Massachusetts e Improbable AI presentan el concepto de mecanismo de codificación-decodificación, proporcionando una explicación convincente de cómo los transformadores desarrollan abstracciones internas. La investigación sobre un pequeño transformador entrenado en escasas tareas de regresión lineal revela que la codificación de conceptos surge a medida que el modelo aprende a mapear diferentes conceptos latentes en espacios de representación distintos y separables. Este proceso opera en conjunto con el desarrollo de algoritmos ICL específicos de conceptos mediante la decodificación de conceptos. Las pruebas en varias familias de modelos previamente entrenados, incluidos Llama-3.1 y Gemma-2 en diferentes tamaños, demuestran que los modelos de lenguaje más grandes exhiben esto. concepto de comportamiento de codificación-decodificación al procesar tareas ICL naturales. La investigación presenta Decodificabilidad del concepto como una medida geométrica de la formación de abstracciones internas, lo que muestra que las capas anteriores codifican conceptos latentes, mientras que las capas posteriores condicionan los algoritmos sobre estos conceptos inferidos, y ambos procesos se desarrollan de forma interdependiente.
El marco teórico para comprender el aprendizaje en contexto se basa en gran medida en una perspectiva bayesiana, que propone que los transformadores infieren implícitamente variables latentes a partir de demostraciones antes de generar respuestas. Este proceso opera en dos etapas distintas: inferencia de conceptos latentes y aplicación selectiva de algoritmos. La evidencia experimental de tareas sintéticas, particularmente el uso de regresión lineal dispersa, demuestra cómo surge este mecanismo durante el entrenamiento del modelo. Cuando se entrenan en múltiples tareas con diferentes bases subyacentes, los modelos desarrollan distintos espacios de representación para diferentes conceptos y al mismo tiempo aprenden a aplicar algoritmos específicos de cada concepto. La investigación revela que los conceptos que comparten superposiciones o correlaciones tienden a compartir subespacios de representación, lo que sugiere limitaciones potenciales en la forma en que los modelos distinguen entre tareas relacionadas en el procesamiento del lenguaje natural.
La investigación proporciona una validación empírica convincente del mecanismo de codificación-decodificación de conceptos en modelos de lenguaje grande previamente entrenados en diferentes familias y escalas, incluidos Llama-3.1 y Gemma-2. A través de experimentos con etiquetado de partes del discurso y tareas aritméticas bit a bit, los investigadores demostraron que los modelos desarrollan espacios de representación más distintos para diferentes conceptos a medida que aumenta el número de ejemplos en contexto. El estudio presenta la decodificabilidad de conceptos (CD) como una métrica para cuantificar qué tan bien se pueden inferir conceptos latentes a partir de representaciones, lo que muestra que las puntuaciones más altas de CD se correlacionan fuertemente con un mejor desempeño en las tareas. En particular, los conceptos que se encuentran con frecuencia durante el entrenamiento previo, como los sustantivos y las operaciones aritméticas básicas, muestran una separación más clara en el espacio representacional en comparación con conceptos más complejos. La investigación demuestra además, a través de experimentos de ajuste, que las primeras capas desempeñan un papel crucial en la codificación de conceptos, y las modificaciones en estas capas producen mejoras de rendimiento significativamente mejores que los cambios en capas posteriores.
El concepto de mecanismo de codificación-decodificación proporciona información valiosa sobre varias preguntas clave sobre el comportamiento y las capacidades de los modelos de lenguaje grandes. La investigación aborda las diferentes tasas de éxito de los LLM en diferentes tareas de aprendizaje en contexto, lo que sugiere que pueden ocurrir cuellos de botella en el rendimiento tanto en la etapa de inferencia de conceptos como en la decodificación de algoritmos. Los modelos muestran un rendimiento más sólido con conceptos que se encuentran con frecuencia durante el entrenamiento previo, como operadores lógicos básicos, pero pueden tener problemas incluso con algoritmos conocidos si la distinción de conceptos sigue sin estar clara. El mecanismo también explica por qué el modelado explícito de variables latentes no necesariamente supera el aprendizaje implícito en los transformadores, ya que los transformadores estándar desarrollan naturalmente capacidades efectivas de codificación de conceptos. Además, este marco ofrece una base teórica para comprender las intervenciones basadas en activación en LLM, lo que sugiere que dichos métodos funcionan influyendo directamente en las representaciones codificadas que guían el proceso de generación del modelo.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.