El curso modelo de lenguaje grande. Cómo convertirse en científico LLM o… | de Maxime Labonne | enero de 2025

Cómo convertirse en científico e ingeniero LLM desde cero

Imagen del autor

El curso Large Language Model (LLM) es una colección de temas y recursos educativos para que las personas ingresen a los LLM. Cuenta con dos hojas de ruta principales:

  1. 🧑‍🔬 El científico del LLM se centra en crear los mejores LLM posibles utilizando las últimas técnicas.
  2. 👷 El ingeniero LLM se centra en la creación de aplicaciones basadas en LLM y su implementación.

Para una versión interactiva de este curso, creé un asistente LLM que responderá preguntas y pondrá a prueba tus conocimientos de forma personalizada en AbrazosChat (recomendado) o ChatGPT.

Esta sección del curso se centra en aprender cómo crear los mejores LLM posibles utilizando las últimas técnicas.

Imagen del autor

No se requiere un conocimiento profundo de la arquitectura Transformer, pero es importante comprender los pasos principales de los LLM modernos: convertir texto en números mediante tokenización, procesar estos tokens a través de capas que incluyen mecanismos de atención y, finalmente, generar texto nuevo a través de varias estrategias de muestreo. .

  • Descripción arquitectónica: Comprenda la evolución desde Transformers codificadores-decodificadores hasta arquitecturas solo decodificadores como GPT, que forman la base de los LLM modernos. Concéntrese en cómo estos modelos procesan y generan texto a alto nivel.
  • Tokenización: Conozca los principios de la tokenización: cómo se convierte el texto en representaciones numéricas que los LLM pueden procesar. Explore diferentes estrategias de tokenización y su impacto en el rendimiento del modelo y la calidad de los resultados.
  • Mecanismos de atención: Dominar los conceptos centrales de los mecanismos de atención, particularmente la autoatención y sus variantes. Comprenda cómo estos mecanismos permiten a los LLM procesar dependencias de largo alcance y mantener el contexto a lo largo de las secuencias.
  • Técnicas de muestreo: Explore varios enfoques de generación de texto y sus ventajas y desventajas. Compare métodos deterministas como la búsqueda codiciosa y la búsqueda por haz con enfoques probabilísticos como el muestreo de temperatura y el muestreo de núcleos.

📚 Referencias:

  • Introducción visual a Transformers por 3Blue1Brown: Introducción visual a Transformers para principiantes.
  • Visualización LLM por Brendan Bycroft: visualización interactiva en 3D de los componentes internos de LLM.
  • nanoGPT por Andrej Karpathy: un vídeo de YouTube de 2 horas de duración para reimplementar GPT desde cero (para programadores). También hizo un vídeo sobre tokenización.
  • ¿Atención? ¡Atención! por Lilian Weng: Reseña histórica para introducir la necesidad de mecanismos de atención.
  • Estrategias de decodificación en LLM por Maxime Labonne: Proporciona código y una introducción visual a las diferentes estrategias de decodificación para generar texto.