En los últimos años, el modelado de lenguajes se ha centrado en mejorar el rendimiento mediante el aumento del número de parámetros en los modelos basados en transformadores. Este enfoque ha dado lugar a resultados impresionantes y a un rendimiento de última generación en muchas tareas de procesamiento del lenguaje natural.
También seguimos esta línea de investigación en DeepMind y recientemente presentamos Gopher, un modelo de 280 mil millones de parámetros que estableció un desempeño líder en una amplia gama de tareas que incluyen modelado del lenguaje, comprensión lectora y respuesta a preguntas. Desde entonces, se ha publicado un modelo aún más grande llamado Megatron-Turing NLG con 530 mil millones de parámetros.
Debido al costo sustancial de entrenar estos modelos grandes, es primordial estimar la mejor configuración de entrenamiento posible para evitar el desperdicio de recursos. En particular, el costo del cálculo de entrenamiento para transformadores está determinado por dos factores: el tamaño del modelo y la cantidad de tokens de entrenamiento.
La generación actual de grandes modelos de lenguaje ha asignado mayores recursos computacionales para aumentar el recuento de parámetros de los modelos grandes y mantener el tamaño de los datos de entrenamiento fijo en alrededor de 300 mil millones de tokens. En este trabajo, investigamos empíricamente el equilibrio óptimo entre aumentar el tamaño del modelo y la cantidad de datos de entrenamiento con recursos computacionales crecientes. Específicamente, hacemos la pregunta: “¿Cuál es el tamaño óptimo del modelo y la cantidad de tokens de entrenamiento para un presupuesto informático determinado?” Para responder a esta pregunta, entrenamos modelos de varios tamaños y con varios números de tokens, y estimamos esta compensación empíricamente.
Nuestro principal hallazgo es que los grandes modelos de lenguaje actuales son demasiado grandes para su presupuesto informático y no se entrenan con suficientes datos. De hecho, encontramos que para la cantidad de FLOP de capacitación utilizados para entrenar Ardilla de tierrahabría sido preferible un modelo 4 veces más pequeño entrenado con 4 veces más datos.
Probamos nuestra hipótesis de escalado de datos entrenando Chinchilla, un modelo de 70 mil millones de parámetros entrenado para 1,3 billones de tokens. Si bien el costo de computación de entrenamiento para Chinchilla y Gopher es el mismo, descubrimos que supera a Gopher y otros modelos de lenguaje grandes en casi todas las tareas medidas, a pesar de tener 70 mil millones de parámetros en comparación con los 280 mil millones de Gopher.
Después del lanzamiento de Chinchilla, se lanzó un modelo llamado PaLM con 540 mil millones de parámetros y entrenado en 768 mil millones de tokens. Este modelo se entrenó con aproximadamente 5 veces el presupuesto de cómputo de Chinchilla y superó a Chinchilla en una variedad de tareas. Si bien el corpus de entrenamiento es diferente, nuestros métodos predicen que dicho modelo entrenado con nuestros datos superaría a Chinchilla a pesar de no ser óptimo en términos de computación. Dado el presupuesto de cómputo de PaLM, predecimos que un modelo de 140 mil millones de parámetros entrenado en 3 billones de tokens será óptimo y más eficiente para la inferencia.
Un beneficio adicional de los modelos más pequeños y con mayor rendimiento es que el tiempo de inferencia y los costos de memoria se reducen, lo que hace que consultar los modelos sea más rápido y posible con menos hardware. En la práctica, si bien los FLOP de entrenamiento entre Gopher y Chinchilla son los mismos, el costo de usar Chinchilla es sustancialmente menor, además de que tiene un mejor rendimiento. Es posible que sean posibles otras optimizaciones simples que puedan seguir proporcionando grandes ganancias.