Los modelos de lenguajes grandes (LLM), como ChatGPT, Gemini, Claude, etc., existen desde hace un tiempo y creo que todos ya usamos al menos uno de ellos. Mientras se escribe este artículo, ChatGPT ya implementa la cuarta generación del modelo basado en GPT, denominado GPT-4. Pero, ¿sabes qué es realmente GPT y cómo es la arquitectura de la red neuronal subyacente? En este artículo vamos a hablar de los modelos GPT, especialmente GPT-1, GPT-2 y GPT-3. También demostraré cómo codificarlos desde cero con PyTorch para que pueda comprender mejor la estructura de estos modelos.
Una breve historia de GPT
Antes de entrar en GPT, debemos comprender de antemano la arquitectura original de Transformer. En términos generales, un transformador consta de dos componentes principales: el Codificador y el Descifrador. El primero es responsable de comprender la secuencia de entrada, mientras que el segundo se utiliza para generar otra secuencia basada en la entrada. Por ejemplo, en una tarea de respuesta a preguntas, el decodificador producirá una respuesta a la secuencia de entrada, mientras que en una tarea de traducción automática se utiliza para generar la traducción de la entrada.