Modelo GPT: ¿Cómo funciona? Miremos juntos debajo del capó con… | de Dmitrii Eliuseev

Miremos juntos debajo del capó con Python y PyTorch.

Durante los últimos años, el revuelo en torno a la IA ha sido enorme, y el principal desencadenante de todo esto es, obviamente, la llegada de grandes modelos de lenguaje basados en GPT. Curiosamente, este enfoque en sí no es nuevo. Las redes neuronales LSTM (memoria a largo plazo) se crearon en 1997 y en 2017 se publicó un artículo famoso, “La atención es todo lo que necesitas”; Ambos fueron las piedras angulares del procesamiento moderno del lenguaje natural. Pero sólo en 2020 los resultados de GPT-3 serán lo suficientemente buenos, no sólo para trabajos académicos sino también para el mundo real.

Hoy en día, todo el mundo puede chatear con GPT en un navegador web, pero probablemente menos del 1% de la gente sepa realmente cómo funciona. Las respuestas inteligentes e ingeniosas del modelo pueden obligar a las personas a pensar que están hablando con un ser inteligente, pero ¿es así? Bueno, la mejor manera de resolverlo es ver cómo funciona. En este artículo, tomaremos un modelo GPT real de OpenAI, lo ejecutaremos localmente y veremos paso a paso lo que sucede bajo el capó.

Este artículo está dirigido a principiantes y personas interesadas en la programación y la ciencia de datos. Ilustraré mis pasos con Python, pero no será necesario un conocimiento profundo de Python.

¡Entremos en ello!

Cargando el modelo

Para nuestra prueba, usaré un modelo “grande” GPT-2, fabricado por OpenAI en 2019. Este modelo era lo último en tecnología en ese momento, pero hoy en día ya no tiene ningún valor comercial y el modelo puede ser descargado gratis de HuggingFace. Lo que es aún más importante para nosotros es que el modelo GPT-2 tiene la misma arquitectura que los más nuevos (pero la cantidad de parámetros es obviamente diferente):

El modelo “grande” GPT-2 tiene 0,7B de parámetros (GPT-3 tiene 175B y GPT-4, según los rumores de la web, 1,7T).
GPT-2 tiene una pila de 36 capas con 20 cabezales de atención (GPT-3 tiene 96 y GPT-4, según los rumores, 120 capas).
GPT-2 tiene una longitud de contexto de 1024 tokens (GPT-3 tiene 2048 y GPT-4 tiene una longitud de contexto de 128 K).

Naturalmente, los modelos GPT-3 y -4 proporcionan mejores resultados en todos los puntos de referencia en comparación con el GPT-2. Pero primero, no están disponibles para descargar (y…

Modelo GPT: ¿Cómo funciona? Miremos juntos debajo del capó con… | de Dmitrii Eliuseev | febrero de 2024

ByEquipo de 7 minutos

Miremos juntos debajo del capó con Python y PyTorch.

Cargando el modelo

By Equipo de 7 minutos

Related Post

Creación de un motor de búsqueda semántico y un clasificador de estado abierto sobre el conjunto de datos ResearchMath-14k

PATH impulsará la formación en IA y las oportunidades profesionales para puestos de trabajo alineados con la industria | Noticias del MIT

NVIDIA Nemotron 3 Ultra ya disponible en Amazon SageMaker JumpStart

You missed

Los hombres negros que se convierten en padres sobreviven a los que no lo hacen

No hay buenos multimillonarios, pero algunos son mejores que otros

Activistas antitaurinos protestan ante el Papa antes de su visita a España

¿Cuánto cuesta el cubo de bong de palomitas de maíz ‘Scary Movie 6’? – Vida en Hollywood