Durante los últimos años, el revuelo en torno a la IA ha sido enorme, y el principal desencadenante de todo esto es, obviamente, la llegada de grandes modelos de lenguaje basados en GPT. Curiosamente, este enfoque en sí no es nuevo. Las redes neuronales LSTM (memoria a largo plazo) se crearon en 1997 y en 2017 se publicó un artículo famoso, “La atención es todo lo que necesitas”; Ambos fueron las piedras angulares del procesamiento moderno del lenguaje natural. Pero sólo en 2020 los resultados de GPT-3 serán lo suficientemente buenos, no sólo para trabajos académicos sino también para el mundo real.
Hoy en día, todo el mundo puede chatear con GPT en un navegador web, pero probablemente menos del 1% de la gente sepa realmente cómo funciona. Las respuestas inteligentes e ingeniosas del modelo pueden obligar a las personas a pensar que están hablando con un ser inteligente, pero ¿es así? Bueno, la mejor manera de resolverlo es ver cómo funciona. En este artículo, tomaremos un modelo GPT real de OpenAI, lo ejecutaremos localmente y veremos paso a paso lo que sucede bajo el capó.
Este artículo está dirigido a principiantes y personas interesadas en la programación y la ciencia de datos. Ilustraré mis pasos con Python, pero no será necesario un conocimiento profundo de Python.
¡Entremos en ello!
Cargando el modelo
Para nuestra prueba, usaré un modelo “grande” GPT-2, fabricado por OpenAI en 2019. Este modelo era lo último en tecnología en ese momento, pero hoy en día ya no tiene ningún valor comercial y el modelo puede ser descargado gratis de HuggingFace. Lo que es aún más importante para nosotros es que el modelo GPT-2 tiene la misma arquitectura que los más nuevos (pero la cantidad de parámetros es obviamente diferente):
- El modelo “grande” GPT-2 tiene 0,7B de parámetros (GPT-3 tiene 175B y GPT-4, según los rumores de la web, 1,7T).
- GPT-2 tiene una pila de 36 capas con 20 cabezales de atención (GPT-3 tiene 96 y GPT-4, según los rumores, 120 capas).
- GPT-2 tiene una longitud de contexto de 1024 tokens (GPT-3 tiene 2048 y GPT-4 tiene una longitud de contexto de 128 K).
Naturalmente, los modelos GPT-3 y -4 proporcionan mejores resultados en todos los puntos de referencia en comparación con el GPT-2. Pero primero, no están disponibles para descargar (y…