Este artículo sobre IA de Cohere AI revela Aya: superando las brechas lingüísticas en PNL con el conjunto de datos multilingüe más grande del mundo

Los conjuntos de datos son una parte integral del campo de la Inteligencia Artificial (IA), especialmente cuando se trata de modelado de lenguajes. La capacidad de los modelos de lenguaje grande (LLM) para responder a instrucciones de manera eficiente se atribuye al ajuste de modelos previamente entrenados, lo que ha llevado a avances recientes en el procesamiento del lenguaje natural (PLN). Este proceso de ajuste de instrucciones (IFT) requiere conjuntos de datos anotados y bien construidos.

Sin embargo, la mayoría de los conjuntos de datos que existen actualmente están en inglés. En una investigación reciente, un equipo de investigadores de Cohere AI tuvo como objetivo cerrar la brecha lingüística mediante la creación de un conjunto de datos de seguimiento de instrucciones curado por humanos que está disponible en 65 idiomas. Para lograrlo, el equipo ha trabajado con hablantes nativos de numerosos idiomas en todo el mundo, recopilando ejemplos reales de instrucciones y completaciones en diversos contextos lingüísticos.

El equipo ha compartido que espera agregar a la colección multilingüe más grande hasta la fecha, además de este conjunto de datos específicos del idioma. Esto incluye traducir conjuntos de datos actuales a 114 idiomas y producir 513 millones de instancias mediante el uso de técnicas de plantillas. El objetivo de esta estrategia es mejorar la diversidad y la inclusión de los datos a los que se puede acceder para entrenar modelos de lenguaje.

Al denominarla iniciativa Aya, el equipo ha compartido el desarrollo y la publicación pública de cuatro materiales esenciales como componente del proyecto. Los componentes son Aya Annotation Platform, que facilita la anotación; Aya Dataset, que es el conjunto de datos curado por humanos para seguir instrucciones; Colección Aya, que es un gran conjunto de datos multilingüe que cubre 114 idiomas; y Aya Assessment Suite, que es una herramienta o marco para evaluar la efectividad de los modelos de lenguaje entrenados en los conjuntos de datos de Aya.

El equipo ha resumido sus principales contribuciones de la siguiente manera.

  1. Aya UI, o Aya Annotation Platform: se ha desarrollado una poderosa herramienta de anotación que admite 182 idiomas, incluidos dialectos, y facilita la recopilación de datos multilingües de alta calidad en forma de instrucción. Lleva ocho meses funcionando y ha registrado 2.997 usuarios de 119 países que hablan 134 idiomas diferentes, lo que indica una base de usuarios amplia e internacional.
  1. El conjunto de datos de Aya: el conjunto de datos más grande del mundo con más de 204.000 ejemplos en 65 idiomas, se ha compilado para ajustar las instrucciones multilingües con anotaciones humanas.
  1. Colección Aya: se han recopilado plantillas de estilo de instrucción de hablantes competentes y se han utilizado en 44 conjuntos de datos cuidadosamente seleccionados que abordaban tareas como respuesta a preguntas de dominio abierto, traducción automática, clasificación de texto, generación de texto y paráfrasis. 513 millones de ejemplos publicados han cubierto 114 idiomas, lo que la convierte en la mayor colección de código abierto de datos de ajuste de instrucciones multilingües (IFT).
  1. Evaluación de Aya: se ha seleccionado y puesto a disposición un variado conjunto de pruebas para la calidad de generación abierta multilingüe. Incluye las indicaciones originales en inglés, así como 250 indicaciones escritas por humanos para cada uno de los siete idiomas, 200 indicaciones traducidas automáticamente pero seleccionadas por humanos para 101 idiomas (114 dialectos) y indicaciones editadas por humanos para seis idiomas.
  1. Código abierto: el código de la plataforma de anotaciones, así como el conjunto de datos Aya, la colección Aya y la suite de evaluación Aya, se han hecho completamente de código abierto bajo una licencia permisiva de Apache 2.0.

En conclusión, la iniciativa Aya se ha posicionado como un estudio de caso útil en la investigación participativa y en la creación de conjuntos de datos.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.