Tucano: una serie de decodificadores-transformadores preentrenados de forma nativa en portugués

El procesamiento del lenguaje natural (PNL) ha avanzado significativamente con el aprendizaje profundo, impulsado por innovaciones como la incrustación de palabras y las arquitecturas transformadoras. El aprendizaje autosupervisado utiliza grandes cantidades de datos sin etiquetar para crear tareas previas al entrenamiento y se ha convertido en un enfoque clave para los modelos de entrenamiento, especialmente en idiomas de altos recursos como el inglés y el chino. La disparidad en los recursos y el rendimiento de la PNL abarca desde sistemas lingüísticos de altos recursos, como el inglés y el chino, hasta sistemas lingüísticos de bajos recursos, como portuguésy más de 7000 idiomas en todo el mundo. Esta brecha obstaculiza la capacidad de las aplicaciones de PNL de lenguajes de bajos recursos para crecer y ser más sólidas y accesibles. Además, los modelos monolingües de bajos recursos siguen siendo de pequeña escala, no están documentados y carecen de puntos de referencia estándar, lo que dificulta el desarrollo y la evaluación.

Los métodos de desarrollo actuales a menudo utilizan grandes cantidades de datos y recursos computacionales fácilmente disponibles para idiomas con altos recursos como el inglés y el chino. La PNL portuguesa utiliza principalmente modelos multilingües como mBERT, mT5 y BLOOM o afina modelos entrenados en inglés. Sin embargo, estos métodos a menudo pasan por alto los aspectos únicos del portugués. Los puntos de referencia de evaluación son antiguos o se basan en conjuntos de datos en inglés, lo que los hace menos útiles para el portugués.

Para abordar esto, investigadores de la universidad de bonn han desarrollado GigaVerboun corpus de texto portugués a gran escala de 200 mil millones de tokens, y entrenó una serie de decodificadores-transformadores llamados Tucano. Estos modelos tienen como objetivo mejorar el rendimiento de los modelos en idioma portugués aprovechando un conjunto de datos sustancial y de alta calidad.

El GigaVerbo El conjunto de datos es una concatenación de múltiples corpus de texto en portugués de alta calidad, refinados mediante técnicas de filtrado personalizadas basadas en evaluaciones GPT-4. El proceso de filtrado mejoró el preprocesamiento del texto y retuvo el 70% del conjunto de datos para el modelo. Basados ​​en la arquitectura Llama, los modelos Tucano se implementaron utilizando Hugging Face para facilitar el acceso de la comunidad. Se utilizaron técnicas como incrustaciones de RoPE, normalización cuadrática media y activaciones de Silu en lugar de SwiGLU. El entrenamiento se realizó utilizando un enfoque de modelado de lenguaje causal y pérdida de entropía cruzada. Los modelos varían entre 160 millones y 2,4 mil millones de parámetros, y el más grande se entrena con 515 mil millones de tokens.

La evaluación de estos modelos muestra que funcionan igual o mejor que otros modelos portugueses y multilingües de tamaño similar en varios puntos de referencia portugueses. Las curvas de pérdida de entrenamiento y perplejidad de validación para los cuatro modelos base mostraron que los modelos más grandes generalmente reducían la pérdida y la perplejidad de manera más efectiva, y el efecto se amplificaba con lotes de mayor tamaño. Se guardaron puntos de control cada 10,5 mil millones de tokens y se realizó un seguimiento del rendimiento en varios puntos de referencia. Los coeficientes de correlación de Pearson indicaron resultados mixtos: algunos puntos de referencia, como CALAME-PT, LAMBADA y HellaSwag, mejoraron con la escala, mientras que otros, como los exámenes OAB, no mostraron correlación con la ingesta de tokens. Se observó una escala inversa en modelos de parámetros de miles de millones, lo que sugiere posibles limitaciones. Los puntos de referencia de rendimiento también revelan que Tucano supera a los modelos multilingües y portugueses anteriores en evaluaciones nativas como CALAME-PT y pruebas traducidas automáticamente como LAMBADA.

En conclusión, las series GigaVerbo y Tucano mejoran el rendimiento de los modelos en idioma portugués. El trabajo propuesto cubrió el proceso de desarrollo, que incluyó la creación, filtración, ajuste de hiperparámetros y evaluación de conjuntos de datos, con un enfoque en la apertura y la reproducibilidad. También mostró el potencial para mejorar los modelos lingüísticos de bajos recursos mediante la recopilación de datos a gran escala y técnicas de capacitación avanzadas. La contribución de estos investigadores resultará beneficiosa al proporcionar estos recursos necesarios para guiar estudios futuros.


Verificar el Papel y Abrazando la página de la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo (Promovido)


Nazmi Syed es pasante de consultoría en MarktechPost y está cursando una licenciatura en ciencias en el Instituto Indio de Tecnología (IIT) Kharagpur. Tiene una profunda pasión por la ciencia de datos y explora activamente las amplias aplicaciones de la inteligencia artificial en diversas industrias. Fascinada por los avances tecnológicos, Nazmi está comprometida a comprender e implementar innovaciones de vanguardia en contextos del mundo real.