Aprender e implementar la predicción del próximo token con un modelo de lenguaje informal…
A pesar de todo lo que se ha logrado con los modelos de lenguajes grandes (LLM), el concepto subyacente que impulsa todos estos modelos es simple: solo necesitamos predecir con precisión el próximo token! Aunque algunos pueden (razonablemente) argumentar que la investigación reciente sobre LLM va más allá de esta idea básica, la predicción del próximo token aún subyace al proceso de preentrenamiento, ajuste fino (según la variante) e inferencia de todos los modelos de lenguaje causal, lo que lo convierte en un Concepto fundamental e importante que cualquier practicante de LLM debe comprender.
“Quizás sea sorprendente que detrás de todo este progreso siga existiendo el mecanismo autorregresivo original para generar texto, que toma decisiones a nivel simbólico una por una y de izquierda a derecha”. – de [10]
En esta descripción general, profundizaremos y practicaremos en el concepto de predicción del próximo token para comprender cómo lo utilizan los modelos de lenguaje tanto durante el entrenamiento como durante la inferencia. Primero, aprenderemos estas ideas a un nivel conceptual. Luego, recorreremos una implementación real (en PyTorch) de los procesos de inferencia y preentrenamiento del modelo de lenguaje para hacer que la idea de la predicción del próximo token sea más concreta.
Antes de profundizar en el tema de esta descripción general, hay algunas ideas fundamentales que debemos comprender. En esta sección, resumiremos rápidamente estos conceptos importantes y proporcionaremos enlaces a lecturas adicionales para cada uno.
La arquitectura del transformador. Primero, necesitamos tener una comprensión práctica de la arquitectura del transformador. [5], especialmente la variante solo decodificadora. Afortunadamente, hemos cubierto estas ideas ampliamente en el pasado:
Más fundamentalmente, también debemos comprender la idea de autoatención y el papel que desempeña en la arquitectura del transformador. Más específicamente, grandes modelos de lenguaje causal: el tipo que estudiaremos en esta descripción general — utilizar una variante particular de la autoatención llamada causal multicéfala…