Mejora de la generalización del modelo de lenguaje: cerrar la brecha entre el aprendizaje en contexto y el ajuste fino

Los modelos de idiomas (LMS) tienen grandes capacidades como los estudiantes de contexto cuando se están prosperando en grandes corpus de texto en Internet, lo que les permite generalizarse de manera efectiva a partir de unos pocos ejemplos de tareas. Sin embargo, el ajuste de estos modelos para tareas aguas abajo presenta desafíos significativos. Si bien el ajuste fino requiere cientos o miles de ejemplos, los patrones de generalización resultantes muestran limitaciones. Por ejemplo, los modelos ajustados en declaraciones como “La madre de B es una” lucha por responder preguntas relacionadas como “¿Quién es el hijo de A?” Sin embargo, el LMS puede manejar tales relaciones inversas en contexto. Esto plantea preguntas sobre las diferencias entre el aprendizaje en contexto y los patrones de generalización de ajuste fino, y cómo estas diferencias deberían informar las estrategias de adaptación para las tareas aguas abajo.

La investigación para mejorar la adaptabilidad de LMS ha seguido varios enfoques clave. Los estudios de aprendizaje en contexto han examinado los patrones de aprendizaje y generalización a través de análisis empíricos, mecanicistas y teóricos. La investigación de aprendizaje fuera de contexto explora cómo los modelos utilizan información no explícitamente incluida en las indicaciones. Las técnicas de aumento de datos utilizan LLM para mejorar el rendimiento de los conjuntos de datos limitados, con soluciones específicas dirigidas a problemas como la maldición de reversión a través de aumentos codificados, capacitación de cierre deductivo y generaciones de rutas de razonamiento. Además, los enfoques de datos sintéticos han evolucionado de los datos tempranos diseñados a mano para mejorar la generalización en dominios como la lingüística o las matemáticas a métodos más recientes que generan datos directamente de los modelos de lenguaje.

Los investigadores de Google Deepmind y la Universidad de Stanford han construido varios conjuntos de datos que aislan el conocimiento de los datos previos a la pretención para crear pruebas de generalización limpia. El rendimiento se evalúa en varios tipos de generalización al exponer modelos previos a los subconjuntos a subconjuntos de información controlados, tanto en contexto como a través del ajuste fino. Sus hallazgos revelan que el aprendizaje en contexto muestra una generalización más flexible que el ajuste fino en los entornos de datos, aunque hay algunas excepciones en las que el ajuste fino puede generalizarse a las reversiones dentro de estructuras de conocimiento más grandes. Sobre la base de estas ideas, los investigadores han desarrollado un método que mejora la generalización de ajuste fino al incluir inferencias en contexto en los datos de ajuste fino.

Los investigadores emplean múltiples conjuntos de datos cuidadosamente diseñados para aislar desafíos de generalización específicos o insertarlos dentro de contextos de aprendizaje más amplios. La evaluación se basa en la puntuación de probabilidad de opción múltiple sin proporcionar opciones de respuesta en contexto. Los experimentos implican el ajuste de Gemini 1.5 Flash utilizando tamaños de lotes de 8 o 16. Para la evaluación en contexto, los investigadores combinan documentos de capacitación como contexto para el modelo sintonizado con instrucciones, submuestreando aleatoriamente por 8x para conjuntos de datos más grandes para minimizar los problemas de interferencia. La innovación clave es un enfoque de aumento de conjunto de datos que utiliza la generalización en contexto para mejorar la cobertura del conjunto de datos ajustados. Esto incluye estrategias locales y globales, cada una empleando contextos y indicaciones distintas.

En el conjunto de datos de Curse de reversión, el aprendizaje en contexto logra el rendimiento del cercano al techo en las reversiones, mientras que el ajuste convencional muestra una precisión cercana a cero, ya que los modelos favorecen los nombres de celebridades incorrectos vistos durante el entrenamiento. El ajuste fino con los datos aumentados por inferencias en contexto coincide con el alto rendimiento del aprendizaje puro en contexto. Las pruebas en reversiones sin sentido simples revelan patrones similares, aunque con beneficios menos pronunciados. Para silogismos simples, mientras que el modelo previamente pracricado funciona a nivel de azar (que indica que no hay contaminación de datos), el ajuste fino produce una generalización por encima del cambio para ciertos tipos de silogismo donde las inferencias lógicas se alinean con patrones lingüísticos simples. Sin embargo, el aprendizaje en contexto supera el ajuste fino, con un ajuste fino aumentado que muestra los mejores resultados generales.

En conclusión, este documento explora las diferencias de generalización entre el aprendizaje en contexto y el ajuste fino cuando LMS enfrenta estructuras de información novedosas. Los resultados muestran la generalización superior del aprendizaje en contexto para ciertos tipos de inferencias, lo que lleva a los investigadores a desarrollar métodos que mejoren el rendimiento de ajuste fino al incorporar inferencias en contexto en los datos de capacitación. A pesar de los resultados prometedores, varias limitaciones afectan el estudio. El primero es la dependencia de las palabras sin sentido y las operaciones inverosímil. En segundo lugar, la investigación se centra en LMS específicos, lo que limita la generalidad de los resultados. La investigación futura debería investigar las diferencias de aprendizaje y generalización en varios modelos para ampliar estos hallazgos, especialmente los modelos de razonamiento más nuevos.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.

Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

🚨 Construye Genai en el que puedas confiar. ⭐️ Parlant es su motor de código abierto para conversaciones de IA controladas, cumplidas y con propósito: ¡Star Parlant en Github! (Promocionado)

Mejora de la generalización del modelo de lenguaje: cerrar la brecha entre el aprendizaje en contexto y el ajuste fino

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA AI presenta ASPIRE: un marco robótico de mejora automática que alcanza un 31 % de efectividad en tareas largas de LIBERO-Pro

Diseño de un canal de inteligencia de facturas guiado por esquemas con lift-pdf para la extracción, validación y generación de libros mayores de cuentas por pagar

Las lecciones no enseñadas de la recuperación de RAG: el coseno no es la base

You missed

NVIDIA AI presenta ASPIRE: un marco robótico de mejora automática que alcanza un 31 % de efectividad en tareas largas de LIBERO-Pro

Los mejores libros nuevos de divulgación científica de julio de 2026

Sumar y Podemos se hartan del “doble discurso” de Rufián: “No va a irse de ERC”

Samaritanos en una velada social de verano « Euro Weekly News