LightOn y Answer.ai lanzan ModernBERT: una nueva serie de modelos que es una mejora de Pareto sobre BERT con velocidad y precisión

Desde el lanzamiento de BERT en 2018, los modelos de transformadores solo codificadores se han utilizado ampliamente en aplicaciones de procesamiento de lenguaje natural (NLP) debido a su eficiencia en las tareas de recuperación y clasificación. Sin embargo, estos modelos enfrentan limitaciones notables en las aplicaciones contemporáneas. La longitud de su secuencia, limitada a 512 tokens, obstaculiza su capacidad para manejar eficazmente tareas de contexto prolongado. Además, su arquitectura, vocabulario y eficiencia computacional no han seguido el ritmo de los avances en hardware y metodologías de capacitación. Estas deficiencias se vuelven especialmente evidentes en los canales de generación aumentada de recuperación (RAG), donde los modelos basados ​​en codificadores proporcionan contexto para modelos de lenguaje grandes (LLM). A pesar de su papel fundamental, estos modelos a menudo se basan en diseños obsoletos, lo que limita su capacidad para satisfacer demandas en evolución.

Un equipo de investigadores de LightOn, Answer.ai, la Universidad Johns Hopkins, NVIDIA y Hugging Face han tratado de abordar estos desafíos con la introducción de ModernBERT.una familia abierta de modelos solo con codificador. ModernBERT aporta varias mejoras arquitectónicas, ampliando la longitud del contexto a 8192 tokens, una mejora significativa con respecto al BERT original. Este aumento le permite desempeñarse bien en tareas de contexto prolongado. La integración de Flash Attention 2 y las incrustaciones posicionales rotativas (RoPE) mejoran la eficiencia computacional y la comprensión posicional. ModernBERT, entrenado con 2 billones de tokens de diversos dominios, incluido el código, demuestra un rendimiento mejorado en múltiples tareas. Está disponible en dos configuraciones: básica (139M de parámetros) y grande (395M de parámetros), ofreciendo opciones adaptadas a diferentes necesidades y superando consistentemente a modelos como RoBERTa y DeBERTa.

Detalles técnicos y beneficios

ModernBERT incorpora varios avances en el diseño de transformadores. Flash Attention mejora la memoria y la eficiencia computacional, mientras que la alternancia de mecanismos de atención global y local optimiza el procesamiento de contexto prolongado. Las incorporaciones de RoPE mejoran la comprensión posicional, lo que garantiza un rendimiento eficaz en secuencias de distintas longitudes. El modelo también emplea funciones de activación GeGLU y una arquitectura profunda y estrecha para lograr un equilibrio entre eficiencia y capacidad. La estabilidad durante el entrenamiento se garantiza aún más mediante bloques de normalización previa y el uso del optimizador StableAdamW con un programa de tasa de aprendizaje trapezoidal. Estas mejoras hacen que ModernBERT no solo sea más rápido sino también más eficiente en cuanto a recursos, particularmente para tareas de inferencia en GPU comunes.

Resultados y conocimientos

ModernBERT demuestra un sólido desempeño en todos los puntos de referencia. En el punto de referencia de Evaluación de comprensión del lenguaje general (GLUE), supera los modelos base existentes, incluido DeBERTaV3. En tareas de recuperación como Dense Passage Retrieval (DPR) y la recuperación multivectorial ColBERT, logra puntuaciones nDCG@10 más altas en comparación con sus pares. Las capacidades del modelo en tareas de contexto largo son evidentes en el punto de referencia MLDR, donde supera a los modelos más antiguos y a los modelos especializados de contexto largo como GTE-en-MLM y NomicBERT. ModernBERT también se destaca en tareas relacionadas con el código, incluidas CodeSearchNet y StackOverflow-QA, y se beneficia de su tokenizador con reconocimiento de código y diversos datos de entrenamiento. Además, procesa lotes de tamaño significativamente mayores que sus predecesores, lo que lo hace adecuado para aplicaciones a gran escala manteniendo al mismo tiempo la eficiencia de la memoria.

Conclusión

ModernBERT representa una evolución reflexiva de los modelos de transformadores solo con codificador, integrando mejoras arquitectónicas modernas con sólidas metodologías de capacitación. Su longitud de contexto ampliada y su eficiencia mejorada abordan las limitaciones de los modelos anteriores, lo que la convierte en una herramienta versátil para una variedad de aplicaciones de PNL, incluida la búsqueda semántica, la clasificación y la recuperación de código. Al modernizar la arquitectura fundamental de BERT, ModernBERT satisface las demandas de las tareas de PNL contemporáneas. Lanzado bajo la licencia Apache 2.0 y alojado en Hugging Face, proporciona una solución accesible y eficiente para investigadores y profesionales que buscan avanzar en los últimos avances en PNL.


Mira el Papel, Blogy Modelo abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.