Con la reciente explosión de interés en modelos de idiomas grandes (LLM), a menudo parecen casi mágicos. Pero vamos a desmitificarlos.
Quería dar un paso atrás y desempaquetar los fundamentos: desglosar cómo se construyen, entrenan los LLM para convertirme en los sistemas de IA con los que interactuamos hoy.
Este buceo profundo de dos partes es algo que he tenido la intención de hacer por un tiempo y también me inspiré Andrej Karpathy es el popular YouTube de 3.5 horas Video, que ha acumulado más de 800,000 vistas en solo 10 días. Andrej es miembro fundador de OpenAi, sus ideas son de oro: se entiende la idea.
Si tienes tiempo Definitivamente vale la pena ver su video. Pero seamos reales: 3.5 horas es un reloj largo. Entonces, para todas las personas ocupadas que no quieren perderse, he destilado los conceptos clave de las primeras 1.5 horas en esto Lectura de 10 minutosagregando mis propias desgloses para ayudarlo a construir una intuición sólida.
Lo que obtendrás
Parte 1 (este artículo): cubre los fundamentos de los LLM, incluido el pre-entrenamiento a las redes neuronales posteriores al entrenamiento, Alucinacionese inferencia.
Parte 2: Aprendizaje de refuerzo con retroalimentación humana/AI, investigando modelos O1, Deepseek R1, Alphago
¡Vamos! Comenzaré a mirar cómo se están construyendo LLM.
En un alto nivel, hay 2 fases clave: pretraben y post-entrenamiento.
1. Prerreining
Antes de que un LLM pueda generar texto, primero debe aprender cómo funciona el lenguaje. Esto sucede a través de la capacitación previa, una tarea altamente intensiva computacionalmente.
Paso 1: Recopilación y preprocesamiento de datos
El primer paso en el entrenamiento de un LLM es reunir la mayor cantidad de texto posible de alta calidad. El objetivo es crear un conjunto de datos masivo y diverso que contenga una amplia gama de conocimientos humanos.
Una fuente es Rastreo comúnque es un repositorio abierto y abierto de datos de rastreo web que contienen 250 mil millones de páginas web durante 18 años. Sin embargo, los datos web sin procesar son ruidosos, que contienen spam, duplicados y contenido de baja calidad, por lo que el preprocesamiento es esencial. Si está interesado en conjuntos de datos preprocesados, FineWeb ofrece una versión curada de COWLE COWLE y está disponible Cara abrazada.
Una vez limpiado, el corpus de texto está listo para la tokenización.
Paso 2: Tokenización
Antes de que una red neuronal pueda procesar el texto, debe convertirse en forma numérica. Esto se hace a través de tokenizacióndonde las palabras, las subvenciones o los caracteres se asignan a tokens numéricos únicos.
Piense en los tokens como los bloques de construcción, los componentes básicos de todos los modelos de idiomas. En GPT4, hay 100,277 tokens posibles. Un tokenizador popular, Tiktokenizerle permite experimentar con la tokenización y ver cómo el texto se descompone en tokens. Intente ingresar una oración y verá cada palabra o subvención asignada una serie de ID numéricas.
Paso 3: Capacitación en la red neuronal
Una vez que el texto se toca, la red neuronal aprende a predecir el siguiente token en función de su contexto. Como se muestra arriba, el modelo toma una secuencia de entrada de tokens (por ejemplo, “Estamos cocinando”) y lo procesa a través de una expresión matemática gigante, que representa la arquitectura del modelo, para predecir el siguiente token.
Una red neuronal consta de 2 partes clave:
- Parámetros (pesos)– Los valores numéricos aprendidos del entrenamiento.
- Arquitectura (expresión matemática)– La estructura que define cómo se procesan los tokens de entrada para producir salidas.
Inicialmente, las predicciones del modelo son aleatorias, pero a medida que avanza la capacitación, aprende a asignar probabilidades a posibles tokens a continuación.
Cuando se identifica el token correcto (por ejemplo, “alimento”), el modelo ajusta sus miles de millones de parámetros (pesos) a través de backpropagation – Un proceso de optimización que refuerza las predicciones correctas al aumentar sus probabilidades al tiempo que reduce la probabilidad de incorrectos.
Este proceso se repite miles de millones de veces en conjuntos de datos masivos.
Modelo base: la salida de la capacitación previa
En esta etapa, el modelo base ha aprendido:
- Cómo las palabras, frases y oraciones se relacionan entre sí
- Patrones estadísticos en sus datos de entrenamiento
Sin embargo, Los modelos base aún no están optimizados para tareas del mundo real. Puede pensar en ellos como un sistema de autocompleto avanzado: predicen el siguiente token en función de la probabilidad, pero con una capacidad limitada de seguimiento de instrucciones.
Un modelo base a veces puede recitar datos de capacitación textualmente y puede usarse para ciertas aplicaciones a través de aprendizaje en contextodonde guía sus respuestas proporcionando ejemplos en su aviso. Sin embargo, para que el modelo sea realmente útil y confiable, requiere una capacitación adicional.
2. Post Training – haciendo que el modelo sea útil
Los modelos base son crudos y sin refinar. Para que sean útiles, confiables y seguros, pasan por el entrenamiento posterior, donde están ajustados en conjuntos de datos más pequeños y especializados.
Debido a que el modelo es una red neuronal, no se puede programar explícitamente como el software tradicional. En cambio, lo “programamos” implícitamente capacitándolo en conjuntos de datos etiquetados estructurados que representan ejemplos de interacciones deseadas.
Cómo funciona la capacitación posterior
Se crean conjuntos de datos especializados, que consisten en ejemplos estructurados sobre cómo el modelo debe responder en diferentes situaciones.
Algunos tipos de entrenamiento posterior incluyen:
- Instrucción/conversación ajustado
Objetivo: enseñar al modelo a seguir las instrucciones, estar orientado a las tareas, participar en conversaciones múltiples, seguir las pautas de seguridad y rechazar las solicitudes maliciosas, etc.
P.ej: InstructGPT (2022): Openai contrató a unos 40 contratistas para crear estos conjuntos de datos etiquetados. Estos anotadores humanos escribieron indicaciones y proporcionaron respuestas ideales basadas en pautas de seguridad. Hoy, muchos conjuntos de datos se generan automáticamente, con humanos que los revisan y editan para su calidad. - Ajuste fino específico del dominio
Objetivo: Adapte el modelo para campos especializados como medicina, derecho y programación.
El entrenamiento post también presenta tokens especiales-Símbolos que no se usaron durante la pre-entrenamiento-para ayudar al modelo a comprender la estructura de las interacciones. Estas fichas señalan dónde comienza y termina la entrada de un usuario y dónde comienza la respuesta de la IA, asegurando que el modelo distinga correctamente entre las indicaciones y respuestas.
Ahora, pasaremos a otros conceptos clave.
Inferencia: cómo el modelo genera texto nuevo
Inferencia Se puede realizar en cualquier etapa, incluso a mitad de la capacitación previa, para evaluar qué tan bien ha aprendido el modelo.
Cuando se le da una secuencia de entrada de tokens, el modelo asigna probabilidades a todos los tokens próximos posibles en función de los patrones que ha aprendido durante el entrenamiento.
En lugar de elegir siempre el token más probable, muestras de esta distribución de probabilidad, similar a voltear una moneda sesgada, donde es más probable que se seleccionen los tokens de mayor probabilidad.
Este proceso se repite iterativamente, con cada token recientemente generado que se convierte en parte de la entrada para la próxima predicción.
La selección de tokens es estocásticoy La misma entrada puede producir diferentes salidas. Con el tiempo, el modelo genera texto que no fue explícitamente en sus datos de entrenamiento, pero sigue los mismos patrones estadísticos.
Alucinaciones: cuando las LLM generan información falsa
¿Por qué ocurren alucinaciones?
Las alucinaciones ocurren porque los LLM no “saben” hechos, simplemente predicen la secuencia de palabras más estadísticamente probable basada en sus datos de entrenamiento.
Los primeros modelos lucharon significativamente con las alucinaciones.
Por ejemplo, en el ejemplo a continuación, si los datos de capacitación contienen muchas preguntas “quién es …” con respuestas definitivas, el modelo aprende que tales consultas siempre deben tener respuestas seguras, incluso cuando carece del conocimiento necesario.
Cuando se le preguntó acerca de una persona desconocida, el modelo no es predeterminado a “No sé” porque este patrón no se reforzó durante el entrenamiento. En cambio, genera su mejor suposición, que a menudo conduce a información fabricada.
¿Cómo se reduce las alucinaciones?
Método 1: Decir “No sé”
Mejorar la precisión objetiva requiere capacitar explícitamente el modelo para reconocer lo que no sabe, una tarea que es más compleja de lo que parece.
Esto se hace a través de autointerrogaciónun proceso que ayuda a definir los límites de conocimiento del modelo.
La autointerrogación se puede automatizar utilizando otro modelo de IA, que genera preguntas para sondear las brechas de conocimiento. Si produce una respuesta falsa, se agregan nuevos ejemplos de capacitación, donde la respuesta correcta está: “No estoy seguro. ¿Podría proporcionar más contexto? “
Si un modelo ha visto una pregunta muchas veces en el entrenamiento, asignará una alta probabilidad a la respuesta correcta.
Si el modelo no ha encontrado la pregunta antes, distribuye la probabilidad de manera más uniforme en múltiples tokens posibles, lo que hace que la salida sea más aleatoria. Ninguna token individual se destaca como la opción más probable.
La sintonización fina entrena explícitamente el modelo para manejar salidas de baja confianza con respuestas predefinidas.
Por ejemplo, cuando le pregunté a Chatgpt-4o, “¿Quién es asdja rkjgklfj?“, Respondió correctamente:” No estoy seguro de quién es. ¿Podría proporcionar más contexto? “
Método 2: hacer una búsqueda web
Un método más avanzado es extender el conocimiento del modelo más allá de sus datos de capacitación al darle acceso a herramientas de búsqueda externas.
En un alto nivel, cuando un modelo detecta la incertidumbre, puede activar una búsqueda web. Los resultados de búsqueda se insertan en la ventana de contexto de un modelo, esencialmente permitiendo que estos nuevos datos formen parte de su memoria de trabajo. El modelo hace referencia a esta nueva información al generar una respuesta.
Recuerdos vagos versus memoria de trabajo
En términos generales, los LLM tienen dos tipos de acceso al conocimiento.
- Recuerdos vagos: el conocimiento almacenado en los parámetros del modelo a partir de la capacitación previa. Esto se basa en patrones que aprendió de grandes cantidades de datos de Internet, pero no es preciso ni de búsqueda.
- Memoria de trabajo: la información disponible en la ventana de contexto del modelo, que se puede acceder directamente durante la inferencia. Cualquier texto proporcionado en el mensaje actúa como una memoria a corto plazo, lo que permite que el modelo recordara los detalles al generar respuestas.
Agregar hechos relevantes dentro de la ventana de contexto mejora significativamente la calidad de la respuesta.
Conocimiento de sí mismo
Cuando se les hacen preguntas como “¿Quién eres?” o “¿Qué te construyó?”un LLM generará una mejor suposición estadística basada en sus datos de capacitación, a menos que se programen explícitamente para responder con precisión.
Los LLM no tienen una verdadera autoconciencia, sus respuestas dependen de los patrones observados durante el entrenamiento.
Una forma de proporcionar al modelo una identidad consistente es mediante el uso de un aviso del sistemaque establece instrucciones predefinidas sobre cómo debería describirse a sí misma, sus capacidades y sus limitaciones.
Terminar
¡Esa es una envoltura para la Parte 1! Espero que esto te haya ayudado a construir intuición sobre cómo funcionan los LLM. En la Parte 2, profundizaremos en el aprendizaje de refuerzo y algunos de los últimos modelos.
¿Tienes preguntas o ideas para lo que debo cubrir a continuación? Déjelos en los comentarios: me encantaría escuchar sus pensamientos. ¡Nos vemos en la Parte 2! 🙂