En los últimos años, se han logrado importantes mejoras de rendimiento en el modelado de lenguaje autorregresivo aumentando el número de parámetros en los modelos Transformer. Esto ha llevado a un enorme aumento en el costo de energía de la capacitación y ha resultado en una generación de “grandes modelos de lenguaje” (LLM) densos con más de 100 mil millones de parámetros. Al mismo tiempo, se han recopilado grandes conjuntos de datos que contienen billones de palabras para facilitar la formación de estos LLM.
Exploramos un camino alternativo para mejorar los modelos de lenguaje: aumentamos los transformadores con la recuperación de una base de datos de pasajes de texto que incluyen páginas web, libros, noticias y códigos. Llamamos a nuestro método RETRO, por “Recuperación de TRansfOrmers mejorados”.
En los modelos de lenguaje transformador tradicionales, los beneficios del tamaño del modelo y el tamaño de los datos están vinculados: siempre que el conjunto de datos sea lo suficientemente grande, el rendimiento del modelado del lenguaje está limitado por el tamaño del modelo. Sin embargo, con RETRO el modelo no se limita a los datos vistos durante el entrenamiento: tiene acceso a todo el conjunto de datos de entrenamiento a través del mecanismo de recuperación. Esto da como resultado ganancias de rendimiento significativas en comparación con un transformador estándar con la misma cantidad de parámetros. Mostramos que el modelado del lenguaje mejora continuamente a medida que aumentamos el tamaño de la base de datos de recuperación, al menos hasta 2 billones de tokens (175 vidas completas de lectura continua).
Para cada pasaje de texto (aproximadamente un párrafo de un documento), se realiza una búsqueda del vecino más cercano que devuelve secuencias similares encontradas en la base de datos de entrenamiento y su continuación. Estas secuencias ayudan a predecir la continuación del texto de entrada. La arquitectura RETRO intercala la autoatención regular a nivel de documento y la atención cruzada con vecinos recuperados a un nivel de paso más fino. Esto da como resultado continuaciones más precisas y más fácticas. Además, RETRO aumenta la interpretabilidad de las predicciones del modelo y proporciona una ruta para intervenciones directas a través de la base de datos de recuperación para mejorar la seguridad de la continuación del texto. En nuestros experimentos en Pile, un punto de referencia de modelado de lenguaje estándar, un modelo RETRO de 7.5 mil millones de parámetros supera al Jurassic-1 de 175 mil millones de parámetros en 10 de 16 conjuntos de datos y supera al Gopher 280B en 9 de 16 conjuntos de datos.
A continuación, mostramos dos muestras de nuestro modelo de referencia 7B y de nuestro modelo RETRO 7.5B que resaltan cómo las muestras de RETRO son más objetivas y se centran más en el tema que la muestra de referencia.