Modelos de lenguaje grandes: una breve introducción | de Carolina Bento

Hay un acrónimo que probablemente haya escuchado sin parar durante los últimos años: LLM, que significa Large Language Model.

En este artículo, analizaremos brevemente qué son los LLM, por qué son una pieza de tecnología extremadamente interesante, por qué son importantes para usted y para mí y por qué deberían interesarse por los LLM.

Nota: en este artículo, usaremos Large Language Model, LLM y model indistintamente.

A Modelo de lenguaje grandenormalmente conocido como LLM porque es una especie de trabalenguas, es un modelo matemático que genera texto, como llenar el espacio para la siguiente palabra en una oración. [1].

Por ejemplo, cuando le das la frase El veloz zorro marrón salta sobre el perezoso ____no sabe exactamente cuál es la siguiente palabra perro. Lo que el modelo produce en cambio es una lista de posibles siguientes palabras con su correspondiente probabilidad de próximamente en una oración que comienza con esas palabras exactas.

Ejemplo de predicción de la siguiente palabra de una frase. Imagen del autor.

La razón por la que los LLM son tan buenos para predecir la siguiente palabra de una oración es porque están entrenados con una cantidad increíblemente grande de texto, que generalmente se extrae de Internet. Entonces, si por casualidad un modelo está ingiriendo el texto de este artículo, Hola 👋

Por otro lado, si está creando un LLM que es específico para un dominio en particular, por ejemplo, está creando un chatbot que podría conversar con usted como si fuera un personaje de de shakespeare obras, Internet seguramente tendrá muchos fragmentos o incluso sus obras completas, pero tendrá un montón de otros textos que no son relevantes para la tarea en cuestión. En este caso, alimentaría al LLM solo con el contexto de Shakespeare del chatbot, es decir, todas sus obras y sonetos.

Aunque los LLM están capacitados con una cantidad gigantesca de datos, eso no es lo que Grande en Large Language Models significa. Además del tamaño de los datos de entrenamiento, la otra gran cantidad de estos modelos es la cantidad de parámetros que tienen, cada uno con la posibilidad de ser ajustado, es decir, sintonizado.

El modelo estadístico más simple es Regresión lineal simplecon sólo dos parámetros, la pendiente y la intersección. E incluso con sólo dos parámetros, hay algunas formas diferentes que puede adoptar la salida del modelo.

Diferentes formas de una regresión lineal. Imagen del autor.

A modo de comparación, cuando se lanzó GPT-3 en 2020, tenía 175 mil millones de parámetros, ¡sí, mil millones![3] Mientras que LLaMa, el LLM de código abierto de Meta, tenía varios modelos diferentes que iban desde parámetros 7B a 65B cuando se lanzó. lanzado en 2023.

Todos estos miles de millones de parámetros comienzan con valores aleatorios, al comienzo del proceso de entrenamiento, y es durante el Propagación hacia atrás parte de la fase de entrenamiento en la que continuamente se modifican y ajustan.

Al igual que con cualquier otro modelo de aprendizaje automático, durante la fase de entrenamiento, la salida del modelo se compara con el valor esperado real de la salida para calcular el error. Cuando todavía hay margen de mejora, la retropropagación garantiza que los parámetros del modelo se ajusten de manera que el modelo pueda predecir valores con un poco menos de error la próxima vez.

Pero esto es sólo lo que se llama pre-entrenamientodonde el modelo se vuelve competente en predecir la siguiente palabra de una oración.

Para que el modelo tenga interacciones realmente buenas con un humano, hasta el punto de que usted, el humano, pueda hacerle una pregunta al chatbot y su respuesta parezca estructuralmente precisa, el LLM subyacente debe pasar por un paso de Aprendizaje por refuerzo con retroalimentación humana. Este es literalmente el humano en el bucle de eso se habla a menudo en el contexto de los modelos de aprendizaje automático.

En esta fase, los humanos etiquetan las predicciones que no son tan buenas y, al recibir esa retroalimentación, los parámetros del modelo se actualizan y el modelo se entrena nuevamente, tantas veces como sea necesario, para alcanzar el nivel de calidad de predicción deseado.

A estas alturas está claro que estos modelos son extremadamente complejos y deben poder realizar millones, si no miles de millones, de cálculos. Esta computación de alta intensidad requirió arquitecturas novedosas, a nivel de modelo con Transformadores y para calcular, con GPU.

GPU es esta clase de procesadores gráficos que se utiliza en escenarios en los que es necesario realizar una cantidad increíblemente grande de cálculos en un corto período de tiempo, por ejemplo, mientras se renderizan sin problemas los personajes de un videojuego. En comparación con el tradicional CPU Las GPU, que se encuentran en su computadora portátil o PC de torre, tienen la capacidad de ejecutar sin esfuerzo muchos cálculos paralelos.

El gran avance para los LLM se produjo cuando los investigadores se dieron cuenta de que las GPU también se pueden aplicar a problemas no gráficos. Tanto el aprendizaje automático como los gráficos por computadora se basan en el álgebra lineal y ejecutan operaciones en matrices, por lo que ambos se benefician de la capacidad de ejecutar muchos cálculos paralelos.

Transformers es un nuevo tipo de arquitectura desarrollada por Google, que permite paralelizar cada operación realizada durante el entrenamiento del modelo. Por ejemplo, al predecir la siguiente palabra de una oración, un modelo que utiliza una arquitectura Transformer no necesita leer la frase de principio a fin, procesa todo el texto al mismo tiempo, en paralelo. Asocia cada palabra procesada con una larga serie de números que dan significado a esa palabra. Pensando nuevamente en el álgebra lineal por un segundo, en lugar de procesar y transformar un punto de datos a la vez, la combinación de Transformers y GPU puede procesar toneladas de puntos al mismo tiempo aprovechando matrices.

Además del cálculo en paralelo, lo que distingue a Transformers es una operación única llamada Atención. De una manera muy simplista, Atención permite observar todo el contexto alrededor de una palabra, incluso si aparece varias veces en diferentes oraciones como

Al final del espectáculo, el cantante hizo varias reverencias.

Jack quería ir a la tienda a comprar un arco nuevo para practicar tiro.

Si nos centramos en la palabra arcopodrás ver cómo el contexto en el que aparece esta palabra en cada frase y su significado real son muy diferentes.

La atención permite al modelo refinar el significado que codifica cada palabra en función del contexto que la rodea.

Esto, además de algunos pasos adicionales como entrenar a un Red neuronal de avancetodo hecho varias veces, hace que el modelo refine gradualmente su capacidad para codificar la información correcta. Todos estos pasos tienen como objetivo hacer que el modelo sea más preciso y no confundir el significado de arcola moción y arco (objeto relacionado con el tiro con arco) cuando ejecuta una tarea de predicción.

Un diagrama de flujo básico que representa varias etapas de los LLM, desde la capacitación previa hasta la estimulación/utilización. Es posible incitar a los LLM a generar respuestas en diferentes etapas de capacitación, como la capacitación previa, el ajuste de instrucciones o el ajuste de alineación. “RL” significa aprendizaje por refuerzo, “RM” representa modelado de recompensa y “RLHF” representa aprendizaje por refuerzo con retroalimentación humana. Imagen y título tomados del artículo al que se hace referencia en [2]

El desarrollo de Transformers y GPU permitió que los LLM se dispararan en uso y aplicación en comparación con los modelos de lenguaje anteriores que necesitaban leer una palabra a la vez. Sabiendo que un modelo mejora cuanto más datos de calidad aprende, se puede ver cómo procesar una palabra a la vez era un gran cuello de botella.

Con la capacidad descrita, los LLM pueden procesar enormes cantidades de ejemplos de texto y luego predecir con gran precisión la siguiente palabra de una oración, combinados con otros poderosos marcos de Inteligencia Artificial, muchas tareas de recuperación de información y lenguaje natural que se volvieron mucho más fáciles de realizar. implementar y producir.

En esencia, Los grandes modelos de lenguaje (LLM) han surgido como sistemas de inteligencia artificial de vanguardia que pueden procesar y generar texto con una comunicación coherente y generalizar múltiples tareas.[2].

Piense en tareas como traducir del inglés al español, resumir un conjunto de documentos, identificar ciertos pasajes en documentos o hacer que un chatbot responda sus preguntas sobre un tema en particular.

Estas tareas eran posibles antes, pero el esfuerzo requerido para construir un modelo era increíblemente mayor y la tasa de mejora de estos modelos era mucho más lenta debido a los cuellos de botella tecnológicos. Los LLM llegaron y potenciaron todas estas tareas y aplicaciones.

Probablemente haya interactuado o haya visto a alguien interactuar directamente con productos que utilizan LLM en su esencia.

Estos productos son mucho más que un simple LLM que predice con precisión la siguiente palabra de una oración. Aprovechan los LLM y otras técnicas y marcos de aprendizaje automático para comprender lo que usted pregunta, buscar en toda la información contextual que han visto hasta ahora y presentarle una respuesta humana y, la mayoría de las veces, coherente. O al menos algunos brindan orientación sobre qué considerar a continuación.

Hay toneladas de productos de Inteligencia Artificial (IA) que aprovechan los LLM, desde Facebook Meta IAGoogle GéminisIA abierta ChatGPTque toma prestado su nombre de la tecnología Generative Pre-trained Transformer bajo el capó, Microsoft Copilotoentre muchos, muchos otros, que cubren una amplia gama de tareas para ayudarle.

Por ejemplo, hace unas semanas me preguntaba cuántos álbumes de estudio Íncubo había liberado. Hace seis meses, probablemente lo buscaría en Google o iría directamente a Wikipedia. Hoy en día suelo preguntar Géminis.

Ejemplo de una pregunta que le hice a Géminis 🤣 Imagen del autor.

Éste es sólo un ejemplo simplista. Hay muchos otros tipos de preguntas o indicaciones que puedes proporcionar a estos productos de Inteligencia Artificial, como pedir que resumas un texto o documento en particular, o si eres como yo y viajas a Melbourne, pedir recomendaciones sobre qué hacer. allá.

Fue directo al grano, me proporcionó una variedad de consejos sobre qué hacer y luego me puse manos a la obra, capaz de profundizar un poco más en lugares específicos que me parecieron más interesantes.

Puedes ver cómo esto me ahorró un montón de tiempo que probablemente tendría que gastar entre reseñas de Yelp y TripAdvisor, videos de Youtube o publicaciones de blog sobre lugares icónicos y recomendados en Melbourne.

Los LMM son, sin duda, un área de investigación incipiente que ha estado evolucionando a un ritmo vertiginoso, como puede ver en la línea de tiempo a continuación.

Visualización cronológica de los lanzamientos de LLM: las tarjetas azules representan modelos “preentrenados”, mientras que las tarjetas naranjas corresponden a modelos “afinados por instrucciones”. Los modelos en la mitad superior significan disponibilidad de código abierto, mientras que los de la parte inferior son de código cerrado. El gráfico ilustra la tendencia creciente hacia modelos de código abierto y optimizados para la instrucción, destacando el panorama en evolución y las tendencias en la investigación del procesamiento del lenguaje natural. Imagen y título tomados del artículo al que se hace referencia en [2]

Estamos apenas en los primeros días de la productización o aplicación del producto. Cada vez más empresas están aplicando LLM a sus áreas de dominio, con el fin de agilizar tareas que les llevarían varios años y una increíble cantidad de fondos para investigar, desarrollar y llevar al mercado.

Cuando se aplican de manera ética y consciente del consumidor, los LLM y los productos que tienen los LLM como núcleo brindan una gran oportunidad para todos. Para los investigadores, es un campo de vanguardia con una gran cantidad de problemas tanto teóricos como prácticos que resolver.

Por ejemplo, en genómica, los gLM o modelos de lenguaje genómico, es decir, modelos de lenguaje grandes entrenados en secuencias de ADN, se utilizan para acelerar nuestra comprensión general de los genomas y de cómo funciona el ADN e interactúa con otras funciones.[4]. Estas son grandes preguntas para las que los científicos no tienen respuestas definitivas, pero los LLM están demostrando ser una herramienta que puede ayudarlos a progresar a una escala mucho mayor e iterar sus hallazgos mucho más rápido. Para lograr un progreso constante en la ciencia, los ciclos de retroalimentación rápidos son cruciales.

Para las empresas, existe un cambio monumental y una oportunidad de hacer más por los clientes, abordar más problemas y puntos débiles, facilitando que los clientes vean el valor de los productos. Ya sea por efectividad, facilidad de uso, costo o todo lo anterior.

Para los consumidores, podemos experimentar productos y herramientas que nos ayudan en las tareas diarias, que nos ayudan a realizar nuestro trabajo un poco mejor, para obtener un acceso más rápido al conocimiento u obtener indicaciones sobre dónde podemos buscar y profundizar en ello. información.

Para mí, la parte más emocionante es la velocidad a la que estos productos evolucionan y se vuelven obsoletos. Personalmente tengo curiosidad por ver cómo serán estos productos en los próximos 5 años y cómo pueden volverse más precisos y confiables.

Modelos de lenguaje grandes: una breve introducción | de Carolina Bento | enero de 2025

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenAI presenta MRC (conexión confiable de múltiples rutas): un nuevo protocolo de red abierto para clústeres de capacitación de supercomputadoras de IA a gran escala

Dale a tu IA un contexto actualizado ilimitado

Agentes que realizan transacciones: presentamos los pagos de Amazon Bedrock AgentCore, creados con Coinbase y Stripe

You missed

¿Es la IA consciente? Un científico famoso dice que podría ser: ScienceAlert

El senador Mark Kelly desencadena MAGA al enfrentarse a Trump y Pete Hegseth

De la supervivencia al deporte moderno

Un barco afectado por la plaga de ratas se dirige a aguas españolas ⋆ Metropolitano de Madrid