Tokenización de desacoplamiento: cómo los transformadores sobrecargados redefinen la escala de vocabulario en modelos de idiomas

La tokenización juega un papel fundamental en el rendimiento y la escalabilidad de Modelos de idiomas grandes (LLMS). A pesar de ser un componente crítico, su influencia en el entrenamiento y la eficiencia del modelo permanece subexplorada. Si bien los vocabularios más grandes pueden comprimir secuencias y reducir los costos computacionales, los enfoques existentes unen vocabularios de entrada y salida, creando compensaciones donde la escala beneficia a los modelos más grandes pero perjudica a los más pequeños. Este artículo presenta un marco llamado Transformadores sobrecargados que reinventa el diseño de vocabulario mediante la desacoplamiento de la tokenización de entrada y salida, desbloqueando nuevas vías para la eficiencia y el rendimiento del modelo.

Referencia: https://arxiv.org/pdf/2501.16975

Los métodos de tokenización tradicionales utilizan vocabularios idénticos para el procesamiento de entrada y la predicción de la salida. Si bien los vocabularios más grandes permiten que los modelos procesen tokens N-Gram más largos (p. Ej., Secuencias de varios caracteres), obligan a los modelos más pequeños a manejar las predicciones de salida excesivamente granulares, aumentando los riesgos de insuficiencia insuficiente. Por ejemplo, un tokenizador de 3 gramos reduce la longitud de la secuencia en un 66%, pero requiere predecir tres caracteres conjuntamente, una tarea manejable para modelos grandes pero abrumador para los más pequeños. Trabajo previo como la predicción de múltiples token (MTP) intentó abordar esto predeciendo tokens futuros en paralelo, pero estos métodos aún enredaron la granularidad de entrada/salida y lucharon con arquitecturas más pequeñas.

El equipo de investigación identificó una visión crítica a través de experimentos sintéticos con gramáticas sin contexto: Los vocabularios de entrada y salida influyen en los modelos de manera diferente. Los vocabularios de entrada más grandes mejoraron consistentemente todos los tamaños de modelo enriqueciendo representaciones de contexto a través de integridades de múltiples gramos. Por el contrario, los vocabularios de salida más grandes introdujeron tareas de predicción de grano fino que solo beneficiaron modelos suficientemente grandes. Esta dicotomía motivó su marco sobrecargado, que separa Codificación de entrada (codificación excesiva) y decodificación de salida (sobredecodificación) Vocabularios.

Codificación excesiva (OE) Escalas Vocabularios de entrada exponencialmente utilizando incrustaciones jerárquicas de N-Gram. En lugar de una sola ID de token, cada token de entrada se representa como la suma de los incrustaciones de 1, 2 y 3 gramos. Por ejemplo, la palabra “gato” podría descomponerse en incrustaciones para “c”, “ca” y “gato”, lo que permite que el modelo capture señales contextuales a múltiples escala. Para evitar costos de memoria poco prácticos de las grandes tablas N-Gram (por ejemplo, entradas de 100k³), el equipo utilizó técnicas de eficiencia de parámetros:

  1. Havia token basada en el módulo: Mapas de tokens N-Gram a una tabla de incrustación de tamaño fijo utilizando aritmética modular, lo que permite la expansión de vocabulario dinámico sin almacenar todas las combinaciones posibles.
  1. Incrustación de descomposición: Divida las integridades de alta dimensión en matrices más pequeñas y apiladas, reduciendo los costos de acceso a la memoria al tiempo que preservan la capacidad de representación.

Decodificación excesiva (OD) se aproxima a los vocabularios de salida más grandes mediante la predicción de múltiples tokens futuros secuencialmente, un refinamiento de métodos MTP anteriores. Por ejemplo, en lugar de predecir un token a la vez, OD entrena el modelo para predecir los siguientes dos tokens condicionados en la primera predicción. De manera crucial, la OD se aplica selectivamente, solo los modelos más grandes se benefician de esta supervisión granular, mientras que los más pequeños retienen la decodificación de una sola token para evitar el subfiesto.

Los investigadores realizaron experimentos sobre arquitecturas Olmo y Olmoe y demostraron tres hallazgos clave:

  1. Escala de registro-lineal: La pérdida de entrenamiento disminuyó linealmente a medida que el tamaño del vocabulario de entrada creció exponencialmente (Figura 1). Un modelo de parámetros de 400 m con un vocabulario de entrada de entrada de 12.8m coincidió con el rendimiento de una línea de base 1b-Parameter, logrando una escala efectiva 2.5 × a un costo computacional igual.
  1. Aceleración de convergencia: Elevalización excesiva Los pasos de entrenamiento reducidos necesarios para la convergencia en 3–5 × en tareas como MMLU y PIQA, lo que sugiere que las representaciones de entrada más ricas aceleran el aprendizaje.
  1. Eficiencia de parámetros dispersos: A pesar de usar vocabularios de entrada 128 × más grandes, los gastos generales de memoria y cálculo aumentaron en <5% debido al acceso de incrustación escasa y estrategias de fragmentación optimizadas.

En las evaluaciones, el marco demostró mejoras de rendimiento consistentes en varios tipos de modelos. Para los modelos densos, un modelo de 151 m sobre codificación (OE) logró una reducción del 14% en la perplejidad en comparación con su línea de base. Del mismo modo, en los modelos de mezcla dispersa (MOE), el OLMOE-1.3B con pérdida de validación reducida en 0.12 puntos, aunque las ganancias fueron menos pronunciadas ya que los beneficios de los expertos escasos diluyeron el impacto de las mejoras de incrustación. Más allá de los experimentos sintéticos, las evaluaciones del mundo real en conjuntos de datos a gran escala validaron aún más estos hallazgos. Los modelos sobrecodificados mejoran constantemente el rendimiento en múltiples puntos de referencia, incluidos MMLU-VAR, HellaSwag, Arc-Challenge, Arc-Easy y PIQA. En particular, el marco aceleró la convergencia, logrando una aceleración de 5.7 × en la reducción de la pérdida de entrenamiento. Además, las evaluaciones aguas abajo mostraron una aceleración significativa, con OE entregando velocidades de 3.2 × en MMLU-VAR, 3.0 × en Helaswag, 2.6 × en Arc-Challenge, 3.1 × en Arc-Easy y 3.9 × en PIQA, resaltando su eficiencia y efectividad a través de diversas tareas.

En conclusión, este trabajo redefine la tokenización como una dimensión escalable en el diseño del modelo de lenguaje. Al desacoplar vocabularios de entrada y salida, los transformadores sobrecargados rompen las compensaciones tradicionales, permitiendo que los modelos más pequeños se beneficien de secuencias de entrada comprimidas sin lidiar con tareas de predicción demasiado complejas. La relación log-lineal entre el tamaño y el rendimiento del vocabulario de entrada sugiere que la incrustación de parámetros representan un nuevo eje para escalar las leyes, complementando el trabajo existente sobre la profundidad y el ancho del modelo. Prácticamente, el marco ofrece una ruta de actualización de bajo costo para las arquitecturas existentes: integrar la sobremarcha requiere cambios de código mínimos, pero produce ganancias de eficiencia inmediata. La investigación futura podría explorar estrategias de tokenización híbrida o adaptación dinámica del vocabulario, solidificando aún más el papel de la tokenización en la próxima generación de LLM eficientes y de alto rendimiento.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.

🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)


Vineet Kumar es un pasante de consultoría en MarktechPost. Actualmente está persiguiendo su BS del Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en aprendizaje profundo, visión por computadora y campos relacionados.