Conozca a Mmbert: un modelo de idioma solo codificador previamente en tokens 3T de texto multilingüe en más de 1800 idiomas y 2–4 × más rápido que los modelos anteriores

¿Por qué se necesitaba un nuevo codificador multilingüe?

XLM-Roberta (XLM-R) ha dominado la PNL multilingüe durante más de 5 años, un reinado inusualmente largo en la investigación de IA. Si bien los modelos solo codificadores como Bert y Roberta fueron centrales para el progreso temprano, la mayoría de la energía de investigación cambió hacia modelos generativos basados ​​en decodificadores. Los codificadores, sin embargo, siguen siendo más eficientes y, a menudo, superan a los decodificadores sobre la incrustación, la recuperación y las tareas de clasificación. A pesar de esto, el desarrollo de codificadores multilingües se estancó.

Un equipo de investigadores de la Universidad Johns Hopkins propone Mmbert que aborde esta brecha al entregar un codificador moderno, superando los modelos recientes a gran escala de XLM-R y rivales como Openi’s O3 y Gemini 2.5 Pro de Google.

Comprender la arquitectura de Mmbert

Mmbert viene en dos configuraciones principales:

  • Modelo base: 22 Capas del transformador, 1152 Dimensión oculta, ~ 307m parámetros (110 m sin incrustación).
  • Modelo pequeño: ~ 140m parámetros (42m sin inicio).

Adopta el Tokenizador de gemma 2 Con un vocabulario de 256k, incrustaciones de posición rotativa (cuerda) y flashatent2 para eficiencia. La longitud de secuencia se extiende desde 1024 a 8192 fichasUso de incrustaciones no publicadas y atención de ventana deslizante. Esto permite que Mmbert procese contextos casi un orden de magnitud más largo que XLM-R mientras mantiene una inferencia más rápida.

¿Qué datos y fases de entrenamiento se utilizaron?

Mmbert fue entrenado en 3 billones de tokens extensión 1.833 idiomas. Las fuentes de datos incluyen FineWeb2, Dolma, Megawika V2, Prolong, Starcoder y otros. El inglés constituye solo ~ 10–34% del corpus dependiendo de la fase.

El entrenamiento se realizó en tres etapas:

  1. Pre-entrenamiento: 2.3t tokens en 60 idiomas y código.
  2. Entrenamiento medio: Tokens 600B en 110 idiomas, centrados en fuentes de mayor calidad.
  3. Fase de descomposición: Tokens 100B que cubren 1,833 idiomas, enfatizando la adaptación de baja recursos.

¿Qué nuevas estrategias de capacitación se introdujeron?

Tres innovaciones principales impulsan el rendimiento de Mmbert:

  • Aprendizaje de idiomas recocidos (todos): Los idiomas se introducen gradualmente (60 → 110 → 1833). Las distribuciones de muestreo se recocen de alta recepción a uniforme, lo que garantiza que los idiomas de baja recursos ganen influencia durante las etapas posteriores sin tener datos limitados en exceso.
  • Programa de enmascaramiento inverso: La relación de enmascaramiento comienza en 30% y se descompone al 5%, fomentando el aprendizaje de grano grueso con refinamientos temprano y de grano fino más tarde.
  • Modelo que se fusiona a través de las variantes de descomposición: Múltiples modelos de fase de decaimiento (inglés pesado, 110 idiomas y 1833 en idioma) se combinan a través de la fusión de lazos, aprovechando las fuerzas complementarias sin reentrenarse desde cero.

¿Cómo se desempeña Mmbert en puntos de referencia?

  • Inglés NLU (pegamento): La base de Mmbert logra 86.3, superando XLM-R (83.3) y casi coincide con Modernbert (87.4), a pesar de asignar> 75% de la capacitación a datos no ingleses.
  • NLU multilingüe (Xtreme): Los puntajes de la base de MMBert 72.8 vs. XLM-R 70.4, con ganancias en la clasificación y las tareas de control de calidad.
  • Tareas de incrustación (MTEB V2): MMBERT BASE ATES MODERNBERT en inglés (53.9 vs. 53.8) y conduce en multilingüe (54.1 vs. 52.4 para XLM-R).
  • Recuperación de código (COIR): Mmbert supera a XLM-R por ~ 9 puntos, aunque Eurobert sigue siendo más fuerte en los datos propietarios.

¿Cómo maneja Mmbert los idiomas de baja recursos?

El cronograma de aprendizaje recocido asegura que los idiomas de baja recursos se beneficien durante la capacitación posterior. En puntos de referencia como Faroese Foqa y Tigrinya Tiquad, Mmbert supera significativamente a O3 y Gemini 2.5 Pro. Estos resultados demuestran que los modelos codificadores, si se entrenan cuidadosamente, pueden generalizarse de manera efectiva incluso en escenarios extremos de baja recursos.

¿Qué ganancias de eficiencia logra Mmbert?

Mmbert es 2–4 × más rápido que xlm-r y minilm mientras apoya Entradas 8192-token. En particular, sigue siendo más rápido en 8192 fichas que los codificadores más antiguos en 512 fichas. Este impulso de velocidad se deriva de la receta de entrenamiento de Modernbert, mecanismos de atención eficientes y integridades optimizadas.

Resumen

Mmbert se produce como el reemplazo de XLM-R, redefiniendo lo que puede entregar un codificador multilingüe. Se ejecuta 2–4 ​​× más rápido, maneja secuencias de hasta 8k tokens y supera a los modelos anteriores tanto en los puntos de referencia de alta recepción como en los idiomas de baja recursos que estaban desatendidos en el pasado. Su receta de entrenamiento, 3 billones de tokens combinadas con aprendizaje de idiomas recocidos, enmascaramiento inverso y fusión del modelo, muestra cómo el diseño cuidadoso puede desbloquear una amplia generalización sin una redundancia excesiva. El resultado es un codificador abierto, eficiente y escalable que no solo llena la brecha de seis años ya que XLM-R, sino que también proporciona una base robusta para la próxima generación de sistemas multilingües de PNL.


Mira el Papel, Modelo en la cara abrazada, Github y Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.