Los modelos de lenguajes grandes (LLM) han demostrado notables capacidades de aprendizaje en contexto (ICL), donde pueden aprender tareas a partir de demostraciones sin requerir capacitación adicional. Un desafío crítico en este campo es comprender y predecir la relación entre la cantidad de demostraciones proporcionadas y la mejora del rendimiento del modelo, conocida como curva ICL. Es necesario comprender mejor esta relación a pesar de sus importantes implicaciones para diversas aplicaciones. La predicción precisa de las curvas ICL tiene una importancia crucial para determinar las cantidades óptimas de demostración, anticipar posibles fallas de alineación en escenarios de muchos disparos y evaluar el ajuste necesario para controlar comportamientos no deseados. La capacidad de modelar estas curvas de aprendizaje de manera efectiva mejoraría la toma de decisiones en las estrategias de implementación y ayudaría a mitigar los riesgos potenciales asociados con las implementaciones de LLM.
Varios enfoques de investigación han intentado decodificar los mecanismos subyacentes del aprendizaje en contexto en modelos de lenguaje grandes, surgiendo teorías divergentes. Algunos estudios sugieren que los LM entrenados con datos sintéticos se comportan como aprendices bayesianos, mientras que otros proponen que siguen patrones de descenso de gradiente y algunos indican que el algoritmo de aprendizaje varía según la complejidad de la tarea, la escala del modelo y el progreso del entrenamiento. Las leyes de potencia han surgido como un marco predominante para modelar el comportamiento de LM, incluidas las curvas ICL en diferentes entornos. Sin embargo, las investigaciones existentes tienen limitaciones notables. Ningún trabajo previo ha modelado directamente la curva ICL basándose en supuestos fundamentales del algoritmo de aprendizaje. Además, las modificaciones posteriores al entrenamiento han demostrado ser en gran medida ineficaces, y los estudios revelan que dichos cambios a menudo son superficiales y fáciles de eludir, lo que es particularmente preocupante porque la ICL puede restablecer comportamientos que supuestamente fueron suprimidos mediante ajustes.
Los investigadores proponen un modelo que introduce leyes bayesianas para modelar y predecir curvas de aprendizaje en contexto en diferentes escenarios de modelos de lenguaje. El estudio evalúa estas leyes utilizando experimentos de datos sintéticos con modelos GPT-2 y pruebas del mundo real en puntos de referencia estándar. El enfoque va más allá del simple ajuste de curvas y proporciona parámetros interpretables que capturan la distribución de tareas previa, la eficiencia de ICL y probabilidades de ejemplo en diferentes tareas. La metodología de investigación abarca dos fases experimentales principales: primero, comparar el desempeño de las leyes bayesianas con los modelos de leyes de potencia existentes en la predicción de curvas y, segundo, analizar cómo las modificaciones posteriores al entrenamiento afectan el comportamiento de ICL tanto en tareas favorecidas como desfavorecidas. El estudio culmina con pruebas exhaustivas en modelos a gran escala que van desde parámetros 1B a 405B, incluida la evaluación de capacidades, puntos de referencia de seguridad y un sólido conjunto de datos de jailbreak de múltiples disparos.
La arquitectura de las leyes de escala bayesianas para ICL se basa en supuestos fundamentales sobre cómo los modelos de lenguaje procesan y aprenden de ejemplos en contexto. El marco comienza tratando a ICL como un proceso de aprendizaje bayesiano, aplicando el teorema de Bayes de forma iterativa para modelar cómo cada nuevo ejemplo en contexto actualiza la tarea anterior. Una innovación clave en la arquitectura es la introducción de técnicas de reducción de parámetros para evitar el sobreajuste. Esto incluye dos enfoques distintos para la vinculación de parámetros, por muestreo y por puntuación, que ayudan a mantener la eficiencia del modelo mientras escalan linealmente con el número de distribuciones. La arquitectura incorpora un coeficiente de eficiencia de ICL ‘K’ que tiene en cuenta la naturaleza del procesamiento token por token de los LLM y las variaciones en la informatividad de los ejemplos, modulando efectivamente la fuerza de las actualizaciones bayesianas en función de la longitud y la complejidad del ejemplo.
Los resultados experimentales demuestran un rendimiento superior de las leyes de escala bayesiana en comparación con los enfoques existentes. En las pruebas de interpolación, la ley de escala bayesiana original logró un error cuadrático medio normalizado (NRMSE) significativamente más bajo en todas las escalas del modelo y longitudes de trayectoria, solo comparable con una sólida línea de base logística. La ley bayesiana de puntuación se destacó particularmente en tareas de extrapolación, mostrando el mejor rendimiento al predecir el 90% restante de las curvas ICL utilizando solo el primer 10% de los puntos de datos. Más allá de la superioridad numérica, las leyes bayesianas ofrecen parámetros interpretables que brindan información significativa sobre el comportamiento del modelo. Los resultados revelan que las distribuciones anteriores se alinean con distribuciones uniformes de preentrenamiento, y la eficiencia de ICL se correlaciona positivamente tanto con la profundidad del modelo como con la longitud del ejemplo, lo que indica que los modelos más grandes logran un aprendizaje en contexto más rápido, especialmente con ejemplos más informativos.
La comparación de las versiones Llama 3.1 8B Base e Instruct reveló información crucial sobre la efectividad del ajuste de instrucciones. Los resultados muestran que, si bien el ajuste de instrucciones reduce con éxito la probabilidad previa de comportamientos inseguros en varias métricas de evaluación (incluidas las evaluaciones de daños y de personalidad), no logra prevenir de manera efectiva el jailbreak de múltiples intentos. La ley de escala bayesiana demuestra que las probabilidades posteriores eventualmente se saturan, independientemente de las probabilidades previas reducidas logradas mediante el ajuste de instrucciones. Esto sugiere que el ajuste de instrucciones modifica principalmente las tareas previas en lugar de alterar fundamentalmente el conocimiento de la tarea subyacente del modelo, posiblemente debido a los recursos computacionales relativamente limitados asignados al ajuste de instrucciones en comparación con el entrenamiento previo.
La investigación resuelve con éxito dos cuestiones fundamentales sobre el aprendizaje en contexto mediante el desarrollo y la validación de leyes de escala bayesianas. Estas leyes demuestran una eficacia notable en el modelado del comportamiento de ICL tanto en LM de pequeña escala entrenados con datos sintéticos como en modelos de gran escala entrenados en lenguaje natural. La contribución clave radica en la interpretabilidad de la formulación bayesiana, que proporciona información clara sobre los antecedentes, la eficiencia del aprendizaje y las probabilidades condicionales de las tareas. Este marco ha demostrado ser valioso para comprender las capacidades de ICL dependientes de la escala, analizar el impacto del ajuste en la retención de conocimientos y comparar los modelos base con sus contrapartes ajustados a la instrucción. El éxito de este enfoque sugiere que la investigación continua de las leyes de escala podría arrojar más conocimientos cruciales sobre la naturaleza y el comportamiento del aprendizaje en contexto, allanando el camino para modelos lingüísticos más eficaces y controlables.
Mira el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Sponsorship Opportunity with us] Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.