En los últimos tiempos, las capacidades de disparo cero y de pocos disparos de los modelos de lenguajes grandes (LLM) han aumentado significativamente, y aquellos con más de 100 B de parámetros ofrecen un rendimiento de vanguardia en varios puntos de referencia. Este avance también presenta un desafío crítico con respecto a los LLM, es decir, la transparencia. El público dispone de un conocimiento muy limitado sobre estos modelos a gran escala y su proceso de formación, y la divulgación de esta información facilitaría la formación de LLM de alta calidad de esta escala.
Un grupo de investigadores de Universidad de Tsinghua y Zhipu.AI han liberado GLM-130B, que es un modelo de lenguaje previamente entrenado bilingüe (inglés y chino) de código abierto con parámetros 130B. Los investigadores de este artículo han demostrado el proceso de entrenamiento del modelo, incluidas las formas en que se podría optimizar el proceso, en un intento de abrir un modelo de código abierto a la par con GPT-3, con parámetros en la escala de 100B. Además, los investigadores han compartido los aspectos exitosos y fallidos del proceso de formación.
GLM-130B utiliza un modelo de lenguaje general (GLM) bidireccional como base. La arquitectura utiliza relleno en blanco autorregresivo como objetivo de entrenamiento, lo que permite una mejor comprensión de los contextos en comparación con los modelos de estilo GPT. GLM-130B es capaz de superar a GPT-3 y PaLM 540B en LAMBADA de disparo cero al lograr una precisión de disparo cero del 80,2%.
Los autores de este artículo experimentaron con diferentes técnicas de normalización de capas (LN) para estabilizar el proceso de entrenamiento de GLM-130B. Las prácticas existentes como Pre-LN, Post-LN y Sandwich-LN fueron ineficaces, pero Post-LN inicializado con DeepNorm mostró resultados prometedores. Los datos previos al entrenamiento del modelo constan de más de 2 TB de corpus de texto en inglés y chino extraídos de foros en línea, enciclopedias, etc., para formar un conjunto de datos bien equilibrado.
Como se mencionó anteriormente, GLM-130B logra una precisión récord en el conjunto de datos LAMBADA. En el conjunto de pruebas de Pile, que consta de una serie de puntos de referencia para el modelado de lenguajes, el rendimiento del modelo GLM estuvo a la par con los modelos GPT-3 y Jurassic-1. El modelo también funciona bien en el punto de referencia MMLU, con un rendimiento de pocos disparos tan bueno como el del GPT-3.
Además, en el banco de pruebas BIG, el GLM-130B pudo superar a GPT-3 y PaLM en configuraciones de disparo cero. Aunque el modelo dio un rendimiento significativo, los investigadores notaron que su crecimiento de rendimiento con respecto a muestras de pocos disparos no es tan grande como el del GPT-3. Plantean la hipótesis de que se debe a múltiples razones, como la naturaleza bidireccional del modelo, la limitación de un conjunto de datos a la par de PaLM en términos de calidad y diversidad, etc.
Los investigadores también probaron el rendimiento cero del modelo en puntos de referencia chinos. Llegaron a la conclusión de que GLM-130B no solo superó a ERNIE Titan 3.0 en más de diez tareas, sino que también funcionó al menos un 260 % mejor que el mismo en dos conjuntos de datos abstractos de MRC. Esto puede deberse al hecho de que el objetivo previo al entrenamiento de GLM incluía un relleno de espacios en blanco autorregresivo que es similar al MRC abstractivo.
En conclusión, el GLM-130B es un modelo de lenguaje preentrenado bilingüe, potente y de código abierto que funciona al nivel de GPT-3 y PaLM en diferentes puntos de referencia e incluso los supera en algunas de las tareas. Más allá de sus prestaciones, lo que diferencia a este modelo es la transparencia de su desarrollo. Los investigadores han hecho público el proceso de formación del modelo, así como sus experiencias tanto de éxito como de fracaso. Este enfoque refleja su compromiso de fomentar la investigación abierta e inclusiva dentro del campo de los LLM.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Soy graduado en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.