Entrenamiento e inferencia de modelos de lenguaje: del concepto al código | por Cameron R. Wolfe, Ph.D.

Aprender e implementar la predicción del próximo token con un modelo de lenguaje informal…

17 minutos de lectura

hace 17 horas

A pesar de todo lo que se ha logrado con los modelos de lenguajes grandes (LLM), el concepto subyacente que impulsa todos estos modelos es simple: solo necesitamos predecir con precisión el próximo token! Aunque algunos pueden (razonablemente) argumentar que la investigación reciente sobre LLM va más allá de esta idea básica, la predicción del próximo token aún subyace al proceso de preentrenamiento, ajuste fino (según la variante) e inferencia de todos los modelos de lenguaje causal, lo que lo convierte en un Concepto fundamental e importante que cualquier practicante de LLM debe comprender.

“Quizás sea sorprendente que detrás de todo este progreso siga existiendo el mecanismo autorregresivo original para generar texto, que toma decisiones a nivel simbólico una por una y de izquierda a derecha”. – de [10]

En esta descripción general, profundizaremos y practicaremos en el concepto de predicción del próximo token para comprender cómo lo utilizan los modelos de lenguaje tanto durante el entrenamiento como durante la inferencia. Primero, aprenderemos estas ideas a un nivel conceptual. Luego, recorreremos una implementación real (en PyTorch) de los procesos de inferencia y preentrenamiento del modelo de lenguaje para hacer que la idea de la predicción del próximo token sea más concreta.

Antes de profundizar en el tema de esta descripción general, hay algunas ideas fundamentales que debemos comprender. En esta sección, resumiremos rápidamente estos conceptos importantes y proporcionaremos enlaces a lecturas adicionales para cada uno.

La arquitectura del transformador. Primero, necesitamos tener una comprensión práctica de la arquitectura del transformador. [5], especialmente la variante solo decodificadora. Afortunadamente, hemos cubierto estas ideas ampliamente en el pasado:

La arquitectura del transformador [link]
Transformadores solo decodificadores [link]

Más fundamentalmente, también debemos comprender la idea de autoatención y el papel que desempeña en la arquitectura del transformador. Más específicamente, grandes modelos de lenguaje causal: el tipo que estudiaremos en esta descripción general — utilizar una variante particular de la autoatención llamada causal multicéfala…

Entrenamiento e inferencia de modelos de lenguaje: del concepto al código | por Cameron R. Wolfe, Ph.D. | enero de 2024

ByEquipo de 7 minutos

Aprender e implementar la predicción del próximo token con un modelo de lenguaje informal…

By Equipo de 7 minutos

Related Post

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

You missed

Los pájaros cantores revelan el lado oscuro de la producción de nuevas células cerebrales en la edad adulta

Ricard Farín se impone a Rosa Suriñach

Victorias en conservación: restauración de guardianes de praderas e historias de éxito de mamíferos en peligro de extinción

La startup sueca de semiconductores AlixLabs cierra la Serie A de 15 millones de euros para escalar la tecnología de grabado a nivel atómico