Más allá del modelado de lenguaje causal. Una inmersión profunda en "No todas las fichas son ... | por Masatake Hirono

Contribuciones de este trabajo

Este documento proporciona un análisis esclarecedor de la dinámica de entrenamiento a nivel de token y una nueva técnica llamada SLM:

Análisis de pérdida de token:
Demuestran que la mayoría de los tokens contribuyen poco más allá de la fase de entrenamiento inicial, mientras que un pequeño subconjunto permanece persistentemente de alta pérdida.

SLM para el aprendizaje enfocado:
Al aprovechar un modelo de referencia para medir cuán “útil” es cada token, logran reducir drásticamente las fichas de entrenamiento Sin sacrificar la calidad, en muchos casos, incluso aumentando el rendimiento posterior.

Amplia demostración de efectividad:
SLM funciona no solo en tareas específicas de matemáticas sino también en dominios más generales, ya sea un conjunto de datos de referencia meticulosamente seleccionado o un modelo de referencia extraído del mismo gran corpus.

¿A dónde podría ir esto después?

SLM abarca varias direcciones potenciales para futuras investigaciones. Por ejemplo:

Ampliando más a fondo:
Aunque el documento se centra principalmente en modelos de alrededor de 1B a 7B de parámetros, sigue habiendo una cuestión abierta de cómo se desempeña SLM en la escala 30B, 70B o 100B+. Si el enfoque de nivel de token se generaliza bien, los ahorros de costos podrían ser enormes para LLM verdaderamente masivos.

Modelos de referencia a través de API:
Si no puede recopilar datos curados, tal vez podría usar un modelo de lenguaje basado en API como referencia. Eso podría hacer que SLM sea más práctico para los equipos de investigación más pequeños que carecen de los recursos para la capacitación de referencia selectiva.

Extensiones de aprendizaje de refuerzo:
Imagine acoplar SLM con aprendizaje de refuerzo. El modelo de referencia podría actuar como un “modelo de recompensa”, y la selección de tokens podría optimizarse a través de algo similar a los gradientes de políticas.

Modelos de referencia múltiples:
En lugar de un solo RM, podría entrenar o reunir varioscada uno enfocándose en un dominio o estilo diferente. Luego, combine sus puntajes de token para producir un sistema de filtrado de dominios múltiples más robusto.

Alineación y seguridad:
Hay una tendencia creciente hacia el factorización en la alineación o la veracidad. Uno podría capacitar a un modelo de referencia para dar puntajes más altos a declaraciones bien soportadas y tokens de cero que parecen fácticamente incorrectos o dañinos.

Más allá del modelado de lenguaje causal. Una inmersión profunda en “No todas las fichas son … | por Masatake Hirono | Enero de 2025

ByEquipo de 7 minutos

Contribuciones de este trabajo

¿A dónde podría ir esto después?

By Equipo de 7 minutos

Related Post

Meta AI lanza NeuralBench: un marco unificado de código abierto para comparar modelos de NeuroAI en 36 tareas de EEG y 94 conjuntos de datos

Deconstruya cualquier métrica con unas cuantas preguntas simples sobre el “qué”

Zyphra lanza ZAYA1-8B: un MoE de razonamiento capacitado en hardware AMD que supera con creces su categoría de peso

You missed

Meta AI lanza NeuralBench: un marco unificado de código abierto para comparar modelos de NeuroAI en 36 tareas de EEG y 94 conjuntos de datos

David Attenborough cumple 100 años: dónde comenzó su icónica voz y cómo reformuló la narración de la naturaleza

Haz que Estados Unidos vuelva a broncearse: RFK Jr. cree que los adolescentes están demasiado pálidos

Cómo contribuyen los microplásticos y nanoplásticos en el aire al cambio climático y al calentamiento atmosférico