Codificación de pares de bytes para principiantes. Una guía ilustrativa del tokenizador BPE… | de Mina Ghashami

Una guía ilustrativa del tokenizador BPE en un lenguaje sencillo

En este artículo, analizamos uno de los algoritmos de tokenización más conocidos llamado codificación de par de bytes (BPE). Se utiliza en muchos modelos de lenguajes grandes de última generación, como la familia BERT, BART y GPT.

Empecemos.

La codificación de pares de bytes (BPE) es una tokenización de subpalabras basada en corpus algoritmo. Es basado en corpus porque utiliza el corpus de entrenamiento para aprender caracteres (o símbolos) frecuentes y fusionarlos en un solo símbolo. Y es un tokenizador de subpalabras porque divide el texto en unidades menores (o iguales) que las palabras.

La siguiente imagen muestra la tokenización de subpalabras en la oración “está lloviendo”. Tenga en cuenta que “eso” y “es” son símbolos de palabras completas; “lluvia” y “ing” son subpalabras de “lloviendo”.

El algoritmo BPE tiene dos partes principales: aprendiz de token y segmentador de token.

1- Alumno de fichas: esto toma un corpus de texto y crea un vocabulario que contiene tokens. Este corpus actúa como corpus de entrenamiento.

El alumno simbólico toma un corpus de texto y construye un vocabulario – imagen del autor

2- Segmentador de tokens: esto toma un fragmento de texto, como una oración, y lo segmenta en tokens. Este texto son los datos de prueba. Usamos el aprendizaje que obtuvimos en el paso anterior para tokenizar los datos de prueba en este paso.

El segmentador de tokens convierte una oración en sus tokens – imagen del autor

Vale la pena mencionar que,

“La codificación de pares de bytes (BPE) (Gage, 1994) es una antigua técnica de compresión de datos que reemplaza iterativamente el par de bytes más frecuente en una secuencia con un único byte no utilizado”.[1]

El algoritmo BPE actual que conocemos para tokenización adapta este algoritmo pero en lugar de fusionar pares frecuentes de bytes, fusiona caracteres frecuentes (o…

Codificación de pares de bytes para principiantes. Una guía ilustrativa del tokenizador BPE… | de Mina Ghashami | octubre de 2023

ByEquipo de 7 minutos

Una guía ilustrativa del tokenizador BPE en un lenguaje sencillo

By Equipo de 7 minutos

Related Post

Cómo construir un sistema de enrutamiento LLM económico con NadirClaw utilizando la clasificación de indicaciones locales y el cambio de modelo Gemini

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

You missed

¿Plutón es un planeta? Eso es hacer la pregunta equivocada.

Britney Spears detalla el “viaje espiritual” después del arresto

Antiguas megaestructuras científicas soviéticas capturadas en impactantes fotografías

Estos demócratas no deberían tener ninguna posibilidad de ganar, pero la tienen