Los modelos de lenguaje grande (LLM) son una tendencia reciente, ya que estos modelos han adquirido una importancia significativa para manejar tareas relacionadas con el procesamiento del lenguaje natural (NLP), como la respuesta a preguntas, el resumen de textos, el aprendizaje en pocas ocasiones, etc. Pero el lenguaje más poderoso Los modelos se publican manteniendo en secreto los aspectos importantes del desarrollo del modelo. Esta falta de apertura afecta a la composición de datos previos al entrenamiento de los modelos de lenguaje, incluso cuando el modelo se lanza para uso público.
Esta opacidad complica la comprensión de cómo la composición del corpus de preentrenamiento afecta las capacidades y limitaciones de un modelo. También impide el avance científico y afecta a las personas en general que utilizan estos modelos. Un equipo de investigadores ha discutido la transparencia y la apertura en su estudio reciente. Para promover la apertura y facilitar los estudios sobre la preformación de modelos lingüísticos, el equipo ha presentado Dolma, un gran corpus en inglés con tres billones de tokens.
Dolma se ha recopilado a partir de una amplia gama de fuentes, como enciclopedias, publicaciones científicas, repositorios de códigos, literatura de dominio público e información en línea. Para fomentar la experimentación adicional y la replicación de sus hallazgos, el equipo ha puesto a disposición del público su conjunto de herramientas de curación de datos.
El objetivo principal del equipo es hacer que la investigación y el desarrollo de modelos de lenguaje sean más accesibles. Han destacado múltiples razones para promover la transparencia y la apertura de los datos, que son las siguientes.
- Los desarrolladores y usuarios de aplicaciones de modelos de lenguaje toman mejores decisiones al proporcionar datos de preentrenamiento transparentes. La presencia de documentos en los datos previos al entrenamiento se ha asociado con un mejor desempeño en tareas relacionadas, lo que hace que sea importante tener en cuenta los sesgos sociales en los datos previos al entrenamiento.
- La investigación que examina cómo la composición de los datos afecta el comportamiento del modelo requiere acceso a datos abiertos de preentrenamiento. Esto hace posible que la comunidad de modelos examine y mejore las técnicas de curación de datos de última generación, abordando cuestiones como la atribución de datos de entrenamiento, los ataques adversarios, la deduplicación, la memorización y la contaminación de los puntos de referencia.
- La creación efectiva de modelos de lenguaje abierto depende del acceso a los datos. La disponibilidad de una amplia gama de datos de preentrenamiento a gran escala es un habilitador crucial para la funcionalidad potencial que pueden ofrecer los modelos más recientes, como la capacidad de atribuir generaciones a los datos de preentrenamiento.
El equipo ha compartido un registro exhaustivo de Dolma, incluida una descripción de su contenido, detalles de construcción y principios arquitectónicos. Han incorporado en el trabajo de investigación análisis y resultados experimentales del entrenamiento de modelos de lenguaje en varios niveles intermedios de Dolma. Estos conocimientos han aclarado importantes técnicas de curación de datos, como los efectos de los filtros de contenido o calidad, las técnicas de deduplicación y las ventajas de utilizar una combinación de múltiples fuentes en los datos de entrenamiento.
OLMo, un marco y modelo de lenguaje abierto de última generación, se ha entrenado con Dolma. OLMo ha sido desarrollado para avanzar en el campo del modelado del lenguaje demostrando la utilidad e importancia del corpus Dolma. El equipo ha resumido sus principales contribuciones de la siguiente manera.
- Se ha hecho público el Dolma Corpus, que consta de un conjunto multifacético de tres billones de tokens de siete fuentes distintas y que se utiliza con frecuencia para un entrenamiento previo extenso de modelos lingüísticos.
- Se ha introducido una herramienta portátil de alto rendimiento llamada Open Sourcing Dolma Toolkit para ayudar con la curación eficaz de grandes conjuntos de datos para el entrenamiento previo de modelos de lenguaje. Con la ayuda de este conjunto de herramientas, los profesionales pueden crear sus propios canales de curación de datos y duplicar el esfuerzo de curación.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.