Meta AI presenta a Cocomix: un marco previo al ejercicio que integra la predicción de token con conceptos continuos

El enfoque dominante para el pretrete de los modelos de lenguaje grande (LLMS) se basa en la predicción de la siguiente token, que ha demostrado ser efectiva para capturar patrones lingüísticos. Sin embargo, este método viene con limitaciones notables. Los tokens del lenguaje a menudo transmiten información a nivel de superficie, lo que requiere que los modelos procesen grandes cantidades de datos para desarrollar capacidades de razonamiento más profundas. Además, el aprendizaje basado en token lucha por capturar dependencias a largo plazo, lo que dificulta la planificación y la abstracción. Los investigadores han explorado estrategias alternativas, como la destilación de conocimiento y el aumento de insumos estructurados, pero estos enfoques no han abordado completamente las limitaciones del aprendizaje basado en token. Esto plantea una pregunta importante: ¿Se pueden capacitar a los LLM de una manera que combine el procesamiento a nivel de token con comprensión conceptual? Meta AI presenta Mezcla de concepto continuo (Cocomix) como una solución potencial.

COCOMIX: un enfoque diferente para el tratamiento previo

Cocomix integra la predicción del token con el modelado de conceptos continuos derivado de los estados ocultos de un modelo previo. El método emplea un Escaso autoencoder (SAE) extraer representaciones semánticas de alto nivel, que luego se incorporan al proceso de capacitación mediante el intercalado con incrustaciones de tokens. Este diseño permite que el modelo mantenga los beneficios del aprendizaje basado en token al tiempo que mejora su capacidad para reconocer y procesar estructuras conceptuales más amplias. Al enriquecer el paradigma basado en token con información a nivel de concepto, Cocomix tiene como objetivo mejorar la eficiencia del razonamiento y la interpretabilidad del modelo.

Detalles y beneficios técnicos

Cocomix opera a través de tres componentes principales:

  1. Extracción conceptual a través de autoencoders dispersos (SAES): Un SAE previamente provocado identifica características semánticas latentes de los estados ocultos de un modelo, capturando información que se extiende más allá de los tokens individuales.
  2. Selección de concepto con puntuación de atribución: No todos los conceptos extraídos contribuyen igualmente a las predicciones. Cocomix emplea métodos de atribución para determinar qué conceptos son más influyentes y deben retenirse.
  3. Interelegar conceptos continuos con representaciones de token: Los conceptos seleccionados se comprimen en un vector continuo y se integran en los estados ocultos junto con los incrustaciones de token, lo que permite que el modelo utilice información conceptual a nivel de token.

Este enfoque mejora Eficiencia de muestrapermitiendo modelos lograr un rendimiento comparable con menos tokens de entrenamiento. Además, Cocomix mejora interpretabilidad Al hacer posible inspeccionar y ajustar los conceptos extraídos, ofreciendo una visión más clara de cómo el modelo procesa la información.

Rendimiento y evaluación

Meta AI evaluó a Cocomix en múltiples puntos de referencia, incluidos OpenWebText, Lambada, Wikitext-103, HellaSwag, Piqa, Siqa, Arc-Easy y Winogrande. Los resultados indican:

  • Eficiencia de muestra mejorada: Cocomix coincide con el rendimiento de la predicción de la siguiente token, al tiempo que requiere 21.5% menos de tokens de entrenamiento.
  • Generalización mejorada: En varios tamaños del modelo (69m, 386m y 1.38b de parámetros), Cocomix demostró mejoras consistentes en el rendimiento de la tarea aguas abajo.
  • Transferencia de conocimiento efectiva: Cocomix admite la transferencia de conocimiento de modelos más pequeños a los más grandes, superando las técnicas de destilación de conocimiento tradicional.
  • Mayor interpretabilidad: La integración de conceptos continuos permite un mayor control y transparencia en la toma de decisiones del modelo, proporcionando una comprensión más clara de sus procesos internos.

Conclusión

Cocomix presenta un enfoque alternativo para el pretrete de LLM mediante la combinación de la predicción de tokens con el razonamiento basado en conceptos. Al incorporar representaciones estructuradas extraídas a través de SAE, Cocomix mejora la eficiencia e interpretabilidad sin interrumpir el marco de predicción subyacente de la próxima token. Los resultados experimentales sugieren que este método proporciona una forma equilibrada de mejorar la capacitación del modelo de lenguaje, particularmente en áreas que requieren razonamiento estructurado y toma de decisiones transparentes. La investigación futura puede centrarse en refinar los métodos de extracción de conceptos e integrar aún más representaciones continuas en los flujos de trabajo previos a la altura.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional(Promocionado)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.