El modelado del lenguaje es importante para tareas de procesamiento del lenguaje natural, como la traducción automática y el resumen de texto. El núcleo de este desarrollo gira en torno a la construcción de LLM que puedan procesar y generar texto similar al humano que transforme la forma en que interactuamos con la tecnología.
Un desafío importante en el modelado del lenguaje es el problema del “colapso de características”. Este problema surge en la arquitectura del modelo, donde el poder expresivo del modelo se vuelve limitado, lo que conduce a una reducción en la calidad de generación y la diversidad de los modelos de lenguaje. Es necesario abordar este problema, ya que es crucial para mejorar el rendimiento y la eficiencia de los LLM.
Los modelos de lenguaje que ya existen a menudo se centran en ampliar el tamaño de los modelos y conjuntos de datos para mejorar el rendimiento. Sin embargo, este enfoque genera enormes costos computacionales que dificultan las aplicaciones prácticas. Estudios recientes sobre la mejora de la arquitectura del modelo han explorado modificaciones y particularmente en los componentes de red de autoatención y retroalimentación de múltiples cabezales del modelo Transformer.
El equipo de investigación del Ark Lab de Huawei Noah aborda las limitaciones actuales de los LLM mediante la introducción de una arquitectura modelo denominada PanGu-π. Este modelo tiene como objetivo mitigar el problema del colapso de características mejorando la no linealidad en la arquitectura del modelo. La innovación radica en la introducción de funciones de activación basadas en series y atajos aumentados dentro del marco de Transformer. La arquitectura PanGu-π demuestra una no linealidad mejorada.
PanGu-π mejora la no linealidad de los modelos lingüísticos a través de dos innovaciones principales. La primera es la implementación de funciones de activación basadas en series en Feed-Forward Network que agrega más complejidad y expresividad al modelo. El segundo es la introducción de atajos aumentados en los módulos de autoatención de múltiples cabezales que diversifican la representación de características del modelo y mejoran su capacidad de aprendizaje.
La arquitectura PanGu-π, incluida su variante PanGu-π-1B, ofrece un diseño no lineal y eficiente con una mejora de velocidad del 10%. El modelo YunShan basado en PanGu-π-7B sobresale en el sector financiero y supera a otros en áreas especializadas como Economía y Banca. El punto de referencia FinEval brilla en tareas de certificación y contabilidad y muestra una notable adaptabilidad e idoneidad para aplicaciones relacionadas con las finanzas.
En conclusión, PanGu-π es una nueva arquitectura de modelo de lenguaje grande que mejora la no linealidad en su diseño y aborda los problemas de colapso de características. Esto se logra sin aumentar significativamente la complejidad, como se evidencia en los módulos Feed-Forward Network y Multi-Head Self-Attention. El modelo iguala el rendimiento de los mejores LLM actuales con una inferencia un 10% más rápida. PanGu-π-1B destaca por su precisión y eficiencia, que es la variante de PanGu-π. YunShan eclipsa en finanzas y derecho, particularmente en subdominios financieros y puntos de referencia, y está construido sobre PanGu-π-1B.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.