Mejorar los modelos de lenguaje recuperando billones de tokens

En los últimos años, se han logrado importantes mejoras de rendimiento en el modelado de lenguaje autorregresivo aumentando el número de parámetros en los modelos Transformer. Esto ha llevado a un enorme aumento en el costo de energía de la capacitación y ha resultado en una generación de “grandes modelos de lenguaje” (LLM) densos con más de 100 mil millones de parámetros. Al mismo tiempo, se han recopilado grandes conjuntos de datos que contienen billones de palabras para facilitar la formación de estos LLM.

Exploramos un camino alternativo para mejorar los modelos de lenguaje: aumentamos los transformadores con la recuperación de una base de datos de pasajes de texto que incluyen páginas web, libros, noticias y códigos. Llamamos a nuestro método RETRO, por “Recuperación de TRansfOrmers mejorados”.

Figura 1: Una descripción general de alto nivel de los transformadores mejorados de recuperación (RETRO).

En los modelos de lenguaje transformador tradicionales, los beneficios del tamaño del modelo y el tamaño de los datos están vinculados: siempre que el conjunto de datos sea lo suficientemente grande, el rendimiento del modelado del lenguaje está limitado por el tamaño del modelo. Sin embargo, con RETRO el modelo no se limita a los datos vistos durante el entrenamiento: tiene acceso a todo el conjunto de datos de entrenamiento a través del mecanismo de recuperación. Esto da como resultado ganancias de rendimiento significativas en comparación con un transformador estándar con la misma cantidad de parámetros. Mostramos que el modelado del lenguaje mejora continuamente a medida que aumentamos el tamaño de la base de datos de recuperación, al menos hasta 2 billones de tokens (175 vidas completas de lectura continua).

Figura 2: Aumentar el tamaño del conjunto de datos de recuperación da como resultado grandes mejoras en el rendimiento del modelo.

Para cada pasaje de texto (aproximadamente un párrafo de un documento), se realiza una búsqueda del vecino más cercano que devuelve secuencias similares encontradas en la base de datos de entrenamiento y su continuación. Estas secuencias ayudan a predecir la continuación del texto de entrada. La arquitectura RETRO intercala la autoatención regular a nivel de documento y la atención cruzada con vecinos recuperados a un nivel de paso más fino. Esto da como resultado continuaciones más precisas y más fácticas. Además, RETRO aumenta la interpretabilidad de las predicciones del modelo y proporciona una ruta para intervenciones directas a través de la base de datos de recuperación para mejorar la seguridad de la continuación del texto. En nuestros experimentos en Pile, un punto de referencia de modelado de lenguaje estándar, un modelo RETRO de 7.5 mil millones de parámetros supera al Jurassic-1 de 175 mil millones de parámetros en 10 de 16 conjuntos de datos y supera al Gopher 280B en 9 de 16 conjuntos de datos.

A continuación, mostramos dos muestras de nuestro modelo de referencia 7B y de nuestro modelo RETRO 7.5B que resaltan cómo las muestras de RETRO son más objetivas y se centran más en el tema que la muestra de referencia.

Mejorar los modelos de lenguaje recuperando billones de tokens

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

Llevando herramientas de diseño de proteínas impulsadas por IA a biólogos de todo el mundo | Noticias del MIT

Creación de NQS basado en transformadores para sistemas de giro frustrados con NetKet

You missed

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

Qué leer esta semana: Radio Universe que expande la mente de Emma Chapman

El lago Gee toca el borde nevado de la capa de hielo de Barnes: la masa de hielo más antigua de Canadá revelada desde el espacio

TrendAI™ se asocia con Anthropic para ampliar su liderazgo en seguridad de IA