Superbpe: modelos de lenguaje avanzado con tokenización transfronteriza

Los modelos de lenguaje (LMS) enfrentan un desafío fundamental en cómo percibir los datos textuales a través de la tokenización. Tokenizers de subvención actuales segmentan texto en tokens de vocabulario que no pueden cerrar el espacio en blanco, adherido a una restricción artificial que trata el espacio como un límite semántico. Esta práctica ignora la realidad de que el significado a menudo excede las palabras individuales: expresiones de múltiples palabras como “muchas” funcionan como unidades semánticas individuales, con hablantes de inglés que almacenan mentalmente miles de tales frases. Interlinguísticamente, los mismos conceptos pueden expresarse como palabras individuales o múltiples, dependiendo del lenguaje. En particular, algunos idiomas como el chino y el japonés no usan espacios en blanco, lo que permite que los tokens abarcan múltiples palabras o oraciones sin una degradación aparente del rendimiento.

Investigaciones anteriores han explorado varios enfoques más allá de la tokenización de subvenciones tradicional. Algunos estudios investigaron el texto de procesamiento en múltiples niveles de granularidad o crean tokens de múltiples palabras a través de la identificación de N-Gram basada en la frecuencia. Otros investigadores han explorado la predicción múltiple (MTP), permitiendo que los modelos de lenguaje predecan varios tokens en un solo paso, lo que confirma la capacidad de los modelos para procesar más de una subvención simultáneamente. Sin embargo, estos enfoques requieren modificaciones arquitectónicas y fijan el número de tokens predichos por paso. Algunos investigadores han realizado enfoques sin tokenizador, modelando el texto directamente como secuencias de bytes. Sin embargo, esto aumenta significativamente las longitudes de secuencia y los requisitos computacionales, lo que lleva a soluciones arquitectónicas complejas.

Investigadores de la Universidad de Washington, NVIDIA y el Instituto Allen para AI han propuesto Superbpe, un algoritmo de tokenización que crea un vocabulario que contiene tokens de subvenciones tradicionales y tokens innovadoras “supervisiones” que abarcan múltiples palabras. Este enfoque mejora el algoritmo popular de codificación de pares de bytes (BPE) al implementar un plan de estudios de prekenación al mantener inicialmente los límites de espacios en blanco para aprender tokens de subvenciones, luego eliminando estas restricciones para permitir la formación de token supervisores. Si bien el BPE estándar alcanza rápidamente retornos decrecientes y comienza a usar subvenciones cada vez más raras a medida que crece el tamaño del vocabulario, SuperBPE continúa descubriendo secuencias comunes de múltiples palabras para codificar como tokens individuales, mejorando la eficiencia de codificación.

SuperBPE opera a través de un proceso de capacitación en dos etapas que modifica el paso de prekindización del BPE tradicional, mencionado anteriormente. Este enfoque intuitivamente construye unidades semánticas y las combina en secuencias comunes para una mayor eficiencia. La configuración de T = T (T es el punto de transición y T es el tamaño objetivo) produce BPE estándar, mientras que t = 0 crea un BPE ingenuo sin espacios en blanco. La capacitación de Superbpe requiere más recursos computacionales que el BPE estándar porque, sin pretokenización en blanco, los datos de capacitación consisten en “palabras” extremadamente largas con una deduplicación mínima. Sin embargo, este aumento del costo de capacitación unas pocas horas en 100 CPU y ocurre solo una vez, lo cual es insignificante en comparación con los recursos requeridos para el pretr positiva del modelo de idioma.

Superbpe muestra un rendimiento impresionante en 30 puntos de referencia que abarcan conocimiento, razonamiento, codificación, comprensión de lectura, etc. Todos los modelos Superbpe superan a la línea de base BPE, con el modelo 8B más fuerte que alcanza una mejora promedio de 4.0% y superando la línea de base en 25 de 30 tareas individuales. Las tareas de opción múltiple muestran ganancias sustanciales, con una mejora de +9.7%. El único bajo rendimiento estadísticamente significativo ocurre en la tarea de Lambada, donde Superbpe experimenta una caída de precisión final del 75.8% al 70.6%. Además, todos los puntos de transición razonables producen resultados más fuertes que la línea de base. El punto de transición más eficiente en codificación ofrece una mejora del rendimiento de +3.1% al tiempo que reduce la computación de inferencia en un 35%.

En conclusión, los investigadores introdujeron SuperBPE, un enfoque de tokenización más efectivo desarrollado al mejorar el algoritmo BPE estándar para incorporar tokens de supervisiones. A pesar de la tokenización que sirve como la interfaz fundamental entre los modelos de lenguaje y el texto, los algoritmos de tokenización se han mantenido relativamente estáticos. Superbpe desafía este status quo al reconocer que los tokens pueden extenderse más allá de los límites de subvenciones tradicionales para incluir expresiones de múltiples palabras. Los tokenizadores Superbpe permiten que los modelos de lenguaje logren un rendimiento superior en numerosas tareas aguas abajo, al tiempo que reducen los costos computacionales de inferencia. Estas ventajas no requieren modificaciones para la arquitectura del modelo subyacente, lo que hace que Superbpe sea un reemplazo perfecto para las BPE tradicionales en las tuberías de desarrollo de modelos de idiomas modernos.


Verificar el Papel y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.