Maximización de coherencia interna (ICM): un marco de capacitación sin supervisión sin etiqueta para LLMS

Los métodos posteriores a la capacitación para modelos lingüísticos previamente capacitados (LMS) dependen de la supervisión humana a través de demostraciones o comentarios de preferencia para especificar los comportamientos deseados. Sin embargo, este enfoque enfrenta limitaciones críticas a medida que las tareas y los comportamientos del modelo se vuelven muy complejos. La supervisión humana no es confiable en estos escenarios, ya que LMS aprende a imitar errores en demostraciones o explotar fallas inherentes en los sistemas de retroalimentación. El desafío central radica en la capacitación de LMS para tareas que exceden la capacidad humana en la confiabilidad en demostraciones o evaluaciones. Investigaciones recientes han identificado diversos modos de fracaso, incluido el hacedor de recompensas de señales de supervisión diseñadas por humanos o humanos reales.

Limitaciones de la supervisión humana en LLM después del entrenamiento

Los investigadores han explorado varios enfoques para escalar más allá de la supervisión humana. Un método estándar utiliza recompensas verificables de alta calidad, como salidas de modelo de coincidencia con soluciones de verdad en tierra en dominios matemáticos. A pesar de la evidencia de que los modelos base previamente capacitados tienen fuertes capacidades latentes para las tareas aguas abajo, con el post-entrenamiento agregando mejoras mínimas, la obtención efectiva sigue siendo desafiante. El método de búsqueda consistente de contraste (CCS) es un enfoque de obtención no supervisado que utiliza la consistencia lógica para encontrar conocimiento latente sin supervisión. Sin embargo, CCS tiene un rendimiento inferior de los enfoques supervisados ​​y, a menudo, no identifica el conocimiento debido a otras características destacadas que satisfacen las propiedades de consistencia.

Introducción de maximización de coherencia interna (ICM)

Investigadores de Anthrope, Schmidt Sciences, Independent, Constellation, la Universidad de Nueva York y la Universidad George Washington han propuesto la maximización de coherencia interna (ICM), que ajusta los modelos previamente capacitados en sus propias etiquetas generadas sin usar las etiquetas proporcionadas. ICM resuelve esto buscando conjuntos de etiquetas que son lógicamente consistentes y mutuamente predecibles de acuerdo con el modelo previamente capacitado. Dado que la identificación óptima del conjunto de etiquetas sigue siendo computacionalmente infalible, ICM utiliza un algoritmo de búsqueda inspirado en recocido simulado para aproximar el objetivo máximo. Además, este método coincide con el rendimiento de la capacitación en etiquetas doradas en Verdadqa y GSM8K, y supera el entrenamiento en etiquetas humanas de crowdsourcing en Alpaca.

Cómo funciona el algoritmo ICM

El algoritmo ICM sigue un proceso iterativo de tres pasos: (a) El sistema muestra un nuevo ejemplo no etiquetado del conjunto de datos para su posible inclusión, (b) determina la etiqueta óptima para este ejemplo al tiempo que resuelve simultáneamente cualquier inconsistencia lógica, y (c) la algoritmo evalúa si acepta este nuevo ejemplo etiquetado basado en la función de puntuación. ICM se evalúa en tres conjuntos de datos: verdaderos para la evaluación de veracidad, verificación GSM8K para la corrección matemática y la alpaca para la ayuda y la inofensiva. Los investigadores utilizaron cuatro líneas de base en sus experimentos: cero-shot, cero-shot (chat), etiqueta dorada y etiqueta humana. Además, los experimentos utilizaron dos modelos de peso abierto, LLAMA 3.1 8B y 70B, y dos modelos patentados: Claude 3 Haiku y Claude 3.5 Haiku.

Comparaciones de rendimiento y modelo de referencia

En las tareas de obtención de capacidad sobrehumanas, ICM coincide con la precisión de supervisión de oro al 80%, superando la precisión humana estimada del 60%. Utilizando modelos de recompensa generados por ICM, los investigadores capacitaron con éxito a un chat de asistente sin supervisión humana. El modelo de recompensa no supervisado alcanza el 75.0% de precisión en Recompensas, en comparación con el 72.2% para alternativas supervisadas humanas capacitadas en datos de producción. Además, utilizando el RM sin supervisión y supervisado humano, dos políticas están entrenadas con RL para crear asistentes útiles, inofensivos y honestos. La política capacitada con el RM sin supervisión logra una tasa de victorias del 60%. Sin embargo, estas políticas aún se quedan atrás del lanzamiento públicamente Claude 3.5 Haiku, que logra las tasas de ganancia del 92%.

Conclusión y perspectiva futura

Este documento introduce la maximización de coherencia interna (ICM), un avance en LM no supervisado para ajustar modelos pre-capacitados en etiquetas autogeneradas. El método coincide constantemente con el rendimiento de la supervisión dorada y supera la supervisión humana de crowdsourced a través de tareas de modelado de GSM8K-VERIFICACIÓN, AHERRYQA y ALPACA DE Modelado de recompensas. Sin embargo, las limitaciones de ICM incluyen la dependencia de la prominencia conceptual dentro de los modelos previamente capacitados e ineficacia con largas entradas debido a las limitaciones de la ventana de contexto. A medida que LMS avanza más allá de las capacidades de evaluación humana, ICM ofrece alternativas prometedoras al RLHF tradicional, asegurando la alineación del modelo con la intención humana sin límites de supervisión humana.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.