Conozca GlotLID: un modelo de identificación de idiomas (LID) de código abierto que admite 1665 idiomas

En los últimos tiempos, cuando la comunicación a través de las fronteras nacionales crece constantemente, la inclusión lingüística es fundamental. La tecnología de procesamiento del lenguaje natural (PNL) debería ser accesible para una amplia gama de variedades lingüísticas en lugar de sólo unas pocas lenguas elegidas de medianos y altos recursos. El acceso a corpus, es decir, recopilaciones de datos lingüísticos para lenguas de bajos recursos, es crucial para lograrlo. Promover la variedad lingüística y garantizar que la tecnología PNL pueda ayudar a personas de todo el mundo a depender de esta inclusión.

Ha habido enormes avances en el campo de la identificación de lenguas (LID), especialmente para las aproximadamente 300 lenguas de recursos altos y medios. Varios estudios han sugerido sistemas LID que funcionan bien para varios idiomas. Pero hay una serie de problemas con esto, que son los siguientes.

  1. Actualmente no existe ningún sistema LID que admita una amplia variedad de idiomas de bajos recursos, que son esenciales para la diversidad e inclusión lingüística.
  1. Los modelos LID actuales para lenguas de bajos recursos no proporcionan una evaluación y confiabilidad exhaustivas. Es crucial garantizar que el sistema pueda reconocer idiomas con precisión en una variedad de circunstancias.
  1. Una de las principales preocupaciones de los sistemas LID es su usabilidad, es decir, su facilidad de uso y eficacia.

Para superar estos desafíos, un equipo de investigadores ha introducido GlotLID-M, un modelo único de identificación de idiomas. Con una notable capacidad de identificación de 1665 idiomas, GlotLID-M proporciona una mejora significativa en la cobertura con respecto a investigaciones anteriores. Es un gran paso para permitir que una gama más amplia de idiomas y culturas utilicen la tecnología de PNL. Se han abordado una serie de dificultades en el contexto del LID de bajos recursos, que se han superado con este nuevo enfoque.

  1. Metadatos de corpus inexactos: los datos lingüísticos inexactos o inadecuados son un problema común para los idiomas de bajos recursos, que GlotLID-M ha solucionado manteniendo una identificación precisa.
  1. Fuga de lenguas de altos recursos: GlotLID-M ha abordado el problema de las lenguas de bajos recursos que ocasionalmente se asocian erróneamente con rasgos lingüísticos de lenguas de altos recursos.
  1. Dificultad para distinguir idiomas estrechamente relacionados: se pueden encontrar dialectos y variantes estrechamente relacionadas en idiomas de bajos recursos. GlotLID-M ha proporcionado una identificación más precisa al diferenciarlos.
  1. Manejo de macrolenguaje versus variedades: los dialectos y otras variaciones se incluyen con frecuencia en los macrolenguajes. Dentro de un lenguaje de macros, GlotLID-M ha sido capaz de identificar eficazmente estos cambios.
  1. Manejo de datos ruidosos: GlotLID-M funciona bien con el manejo de datos ruidosos, ya que trabajar con datos lingüísticos de bajos recursos puede ser difícil y ruidoso a veces.

El equipo compartió que, tras la evaluación, GlotLID-M demostró un mejor rendimiento que cuatro modelos LID de referencia, que son CLD3, FT176, OpenLID y NLLB, cuando se equilibraron la puntuación F1 basada en la precisión y la tasa de falsos positivos. Esto demuestra que puede reconocer idiomas de forma consistente y precisa, incluso en situaciones difíciles. GlotLID-M se ha creado con usabilidad y eficiencia y se puede incorporar fácilmente a procesos para crear conjuntos de datos.

El equipo ha compartido sus principales contribuciones de la siguiente manera.

  1. Se ha creado GlotLID-C, que es un extenso conjunto de datos que abarca 1665 idiomas y se destaca por su inclusión, con un enfoque en idiomas de bajos recursos en diversos dominios.
  1. GlotLID-M, un modelo de identificación de idiomas de código abierto, ha sido entrenado en el conjunto de datos GlotLID-C. Este modelo es capaz de identificar idiomas entre los 1665 idiomas del conjunto de datos, lo que lo convierte en una poderosa herramienta para el reconocimiento de idiomas en un amplio espectro lingüístico.
  1. GlotLID-M ha superado a múltiples modelos de referencia, lo que demuestra su eficacia. En comparación con los idiomas de bajos recursos, logra una mejora notable de más del 12% de la puntuación absoluta F1 en el corpus de la Declaración Universal de Derechos Humanos (DUDH).
  1. Cuando se trata de equilibrar las puntuaciones de F1 y las tasas de falsos positivos (FPR), GlotLID-M también funciona excepcionalmente bien. El conjunto de datos FLORES-200, que comprende principalmente lenguajes de recursos altos y medios, funciona mejor que los modelos de referencia.

Revisar la Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.