Avanzando en el procesamiento del lenguaje natural en cantonés: cerrando brechas de desarrollo en modelos lingüísticos de gran tamaño con nuevos puntos de referencia e innovaciones de código abierto

Los modelos lingüísticos de gran tamaño (LLM, por sus siglas en inglés) han revolucionado el procesamiento del lenguaje natural (PLN), en particular para el inglés y otros idiomas ricos en datos. Sin embargo, este rápido avance ha creado una brecha de desarrollo significativa para los idiomas subrepresentados, siendo el cantonés un claro ejemplo. A pesar de que lo hablan más de 85 millones de personas y de que tiene importancia económica en regiones como la Gran Área de la Bahía de Guangdong-Hong Kong-Macao, Singapur y América del Norte, el cantonés sigue estando gravemente subrepresentado en la investigación sobre PNL. Esta disparidad es especialmente preocupante dado el uso generalizado del idioma y la importancia económica de las regiones de habla cantonesa. La falta de recursos de PNL para el cantonés, en particular en comparación con idiomas de áreas de desarrollo similar, plantea un desafío crítico para los investigadores y profesionales que buscan desarrollar tecnologías lingüísticas efectivas para este idioma ampliamente hablado.

El desarrollo de LLM específicos para cantonés enfrenta desafíos significativos debido a la investigación y los recursos limitados. La mayor parte de la tecnología LLM en cantonés existente sigue siendo de código cerrado, lo que obstaculiza el progreso generalizado en el campo. Si bien se han desarrollado algunas redes neuronales a pequeña escala para tareas específicas de NLP en cantonés, como la detección de rumores, el análisis de sentimientos, la traducción automática, los sistemas de diálogo y el modelado del lenguaje, faltan soluciones LLM integrales. La escasez de datos de capacitación y puntos de referencia para LLM en cantonés complica aún más los esfuerzos de desarrollo. Los recursos de datos y las métricas de evaluación existentes son insuficientes para evaluar de manera integral las diversas capacidades de LLM en cantonés. Esta falta de herramientas de evaluación sólidas dificulta la medición del progreso y la comparación eficaz de diferentes modelos, lo que en última instancia frena el avance de la tecnología del idioma cantonés en el panorama de rápida evolución de NLP y LLM.

Para mitigar los desafíos en la evaluación de los modelos de idioma cantonés, los investigadores de la Universidad China de Hong Kong y la Universidad de Hong Kong han desarrollado un conjunto integral de puntos de referencia diseñados específicamente para los LLM en cantonés. Estas nuevas herramientas de evaluación incluyen YueTruthful, Yue-GSM8K, Yue-ARC-C, Yue-MMLU y Yue-TRANS, que evalúan varios aspectos del desempeño del modelo de idioma en cantonés. Estos puntos de referencia se centran en la generación de hechos, la lógica matemática, el razonamiento complejo, el conocimiento general y las capacidades de traducción, respectivamente. Derivados de conjuntos de datos existentes en inglés o mandarín, estos puntos de referencia en cantonés han sido sometidos a una traducción meticulosa y una revisión manual para garantizar la precisión y la relevancia cultural. Utilizando estos puntos de referencia recientemente desarrollados, los investigadores llevaron a cabo un análisis exhaustivo de veintitrés LLM de cantonés convencionales y de propósito general, evaluando su competencia en tareas del idioma cantonés. Además, el estudio exploró qué LLM son los más adecuados para producir traducciones al cantonés de alta calidad, lo que proporciona información valiosa para el desarrollo futuro del NLP cantonés.

Red neuronal a pequeña escala en cantonés

La investigación en PNL en cantonés abarca varios dominios, entre ellos la detección de rumores, el análisis de sentimientos, la traducción automática y los sistemas de diálogo. Para la detección de rumores, se han desarrollado modelos especializados como XGA y CantoneseBERT, que incorporan mecanismos de atención y características de pronunciación de glifos. El análisis de sentimientos ha progresado desde el aprendizaje automático básico hasta técnicas avanzadas que utilizan modelos ocultos de Markov y transformadores. La traducción automática ha evolucionado desde sistemas basados ​​en reglas hasta enfoques estadísticos y neuronales, con un enfoque reciente en métodos no supervisados ​​y conjuntos de datos a gran escala. La generación y el resumen de diálogos han experimentado avances con modelos perfeccionados como BertSum. El modelado del lenguaje enfrenta desafíos debido a la escasez de datos, mientras que varias herramientas de PNL atienden las necesidades específicas de procesamiento del cantonés.

Modelo de idioma cantonés de gran tamaño

Los avances recientes en los programas de máster en cantonés son prometedores a pesar de la escasez de recursos y los desafíos específicos del idioma. Las técnicas de alineación como la incitación, el ajuste fino supervisado y el aprendizaje de refuerzo a partir de la retroalimentación humana han demostrado ser eficaces para adaptar estos modelos a tareas posteriores, al tiempo que se abordan los sesgos y los matices culturales. Entre las aplicaciones notables se incluye el éxito de ChatGPT en el diálogo y el análisis de sentimientos en cantonés, como se demostró en un estudio de asesoramiento web en Hong Kong. El bot CanChat ejemplifica la implementación práctica, ofreciendo apoyo emocional a los estudiantes durante la pandemia de COVID-19. Si bien tanto los programas de máster en cantonés de propósito general como los de código cerrado demuestran potencial, cuantificar su desempeño sigue siendo un desafío. Para abordar esto, los investigadores han propuesto cuatro nuevos puntos de referencia diseñados específicamente para evaluar y mejorar las capacidades en cantonés de los modelos lingüísticos grandes.

El desarrollo de recursos en lengua cantonesa tiene una rica historia que se remonta al diccionario bilingüe de Matteo Ricci en el siglo XVI. Las instituciones de Hong Kong han sido fundamentales en la creación de corpus en cantonés, incluidos registros legislativos, diálogos infantiles y transcripciones de medios de comunicación. Los esfuerzos recientes se centran en cerrar la brecha de datos entre el cantonés y los idiomas principales, con iniciativas como bancos de datos paralelos y diccionarios integrales. Para abordar la falta de herramientas de evaluación de LLM específicas para cantonés, los investigadores han desarrollado cuatro nuevos puntos de referencia: YueTruthfulQA para la generación de hechos, Yue-GSM8K para la lógica matemática, Yue-ARC-C para el razonamiento complejo y Yue-MMLU para el conocimiento general. Estos conjuntos de datos, traducidos de sus contrapartes en inglés o mandarín, se sometieron a una revisión rigurosa por parte de expertos trilingües para garantizar la precisión y la relevancia cultural.

El desempeño de los LLM en cantonés está por detrás de sus contrapartes en mandarín e inglés. Las métricas Rouge-l y Bleu-4 se destacan en la evaluación de la extracción de información clave, mientras que BERTScore evalúa similitudes semánticas profundas. En general, las configuraciones de 5 disparos superan a las de 0 disparos, lo que demuestra el beneficio de las referencias adicionales. Los LLM convencionales tienen un desempeño consistentemente mejor en inglés que en cantonés, lo que resalta la necesidad de un desarrollo más centrado en el cantonés. Diferentes series de modelos muestran diferentes fortalezas en las distintas tareas. Qwen-1.5-110b y Mixtral-large-2 lideran en la generación de hechos, mientras que GPT-4 y GPT-4o se destacan en lógica matemática. En razonamiento complejo, GPT-4 encabeza constantemente las tablas de desempeño, seguido de cerca por los modelos Qwen y Mixtral. Qwen-2-72b muestra el mejor desempeño en varios temas de MMLU.

El lenguaje cantonés enfrenta desafíos únicos debido a sus diferencias significativas con el chino estándar, particularmente en el uso coloquial. La abundancia de expresiones únicas, jerga y matices culturales en cantonés complica la adaptación de modelos basados ​​en el chino estándar. Además, la naturaleza multilingüe de la comunicación cantonesa, con cambios frecuentes de código entre cantonés, chino estándar e inglés, plantea desafíos adicionales para los sistemas de lenguaje cantonés.

Para abordar estos desafíos y hacer avanzar el procesamiento del lenguaje natural en cantonés, surgen varias oportunidades. Las técnicas de aumento de datos, incluidos los métodos de etiquetas invariantes y de etiquetas variantes, pueden ayudar a superar la escasez de datos específicos del cantonés. Se recomienda aprovechar modelos de código cerrado de alta capacidad o alternativas de código abierto rentables para la traducción y el aumento de conjuntos de datos. Los investigadores deben centrarse en el desarrollo de modelos que puedan manejar eficazmente el cambio de código y los contextos multilingües. Según los resultados de las pruebas de referencia, se recomiendan los modelos de las series Qwen, Mixtral, Llama y Yi para diversas tareas de procesamiento del lenguaje natural en cantonés, con una selección de modelos específicos según los requisitos de la tarea y los recursos disponibles.

Este estudio aborda la brecha crítica en la investigación sobre el lenguaje natural cantonés, destacando la escasa representación del idioma a pesar de su importante base de hablantes a nivel mundial y su importancia económica. Los investigadores de la Universidad China de Hong Kong y la Universidad de Hong Kong desarrollaron puntos de referencia sólidos (YueTruthful, Yue-GSM8K, Yue-ARC-C, Yue-MMLU y Yue-TRANS) para evaluar los LLM en cantonés. Estas herramientas evalúan la generación de hechos, la lógica matemática, el razonamiento complejo, el conocimiento general y las capacidades de traducción. El estudio analizó 23 LLM convencionales y reveló que los modelos cantoneses generalmente se quedan atrás de sus contrapartes en inglés y mandarín. Diferentes modelos sobresalieron en varias tareas, y las series Qwen, Mixtral y GPT mostraron resultados prometedores. La investigación también identificó desafíos clave en el lenguaje natural cantonés, incluidos los coloquialismos y el cambio de código, y propuso oportunidades para avanzar a través del aumento de datos y el desarrollo de modelos especializados.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y LinkedInÚnete a nuestro Canal de Telegram.

Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios


Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.