IBM AI Research lanza dos modelos de incrustación de granito inglés, ambos basados ​​en la arquitectura Modernbert

IBM ha construido silenciosamente una fuerte presencia en el ecosistema de IA de código abierto, y su último lanzamiento muestra por qué no debe pasarse por alto. La compañía ha introducido dos nuevos modelos de incrustación:Granito-INGLISH-R2 y Granito-incrustante-inglés-r2—Designado específicamente para sistemas de recuperación y trapo de alto rendimiento (generación de recuperación acuática). Estos modelos no solo son compactos y eficientes, sino que también son licenciados bajo Apache 2.0preparándolos para la implementación comercial.

¿Qué modelos se lanzó IBM?

Los dos modelos se dirigen a diferentes presupuestos de cómputo. El más grande Granito-INGLISH-R2 Tiene 149 millones de parámetros con un tamaño de incrustación de 768, construido en un codificador Modernbert de 22 capas. Su contraparte más pequeña, Granito-incrustante-inglés-r2viene en solo 47 millones de parámetros con un tamaño de incrustación de 384, utilizando un codificador Modernbert de 12 capas.

A pesar de sus diferencias de tamaño, ambos admiten una longitud de contexto máxima de 8192 fichasuna actualización importante de las integridades de granito de primera generación. Esta capacidad de contexto largo los hace muy adecuados para cargas de trabajo empresariales que involucran documentos largos y tareas de recuperación complejas.

https://arxiv.org/abs/2508.21085

¿Qué hay dentro de la arquitectura?

Ambos modelos están construidos en el Moderna Backbone, que introduce varias optimizaciones:

  • Alterna atención global y local equilibrar la eficiencia con dependencias de largo alcance.
  • INCREGOS POSICIONALES ROTARIOS (cuerda) Sintonizado para la interpolación posicional, permitiendo ventanas de contexto más largas.
  • FlashAttent 2 Para mejorar el uso y el rendimiento de la memoria en el momento de la inferencia.

IBM también entrenó estos modelos con un tubería de múltiples etapas. El proceso comenzó con el lingüístico enmascarado previamente en un conjunto de datos de dos billones de datos procedentes de documentos técnicos Web, Wikipedia, PubMed, BookCorpus y IBM internos. Esto fue seguido por Extensión de contexto de 1k a 8k tokens, Aprendizaje contrastante con destilación de Mistral-7by ajuste del dominio para tareas de recuperación de conversación, tabular y de código.

¿Cómo funcionan en puntos de referencia?

Los modelos de granito R2 ofrecen resultados sólidos en puntos de referencia de recuperación ampliamente utilizados. En Mteb-v2 y Beirel mayor granito-in-inglés-R2 supera a los modelos de tamaño similar como BEGE BASE, E5 e Incruta del Ártico. El modelo más pequeño, el granito-granable-inglés-inglés-R2, logra una precisión cercana a los modelos dos o tres veces más grandes, lo que lo hace particularmente atractivo para las cargas de trabajo sensibles a la latencia.

https://arxiv.org/abs/2508.21085

Ambos modelos también funcionan bien en dominios especializados:

  • Recuperación de documentos largos (MLDR, longembed) Donde 8K Soporte del contexto es crítico.
  • Tareas de recuperación de la tabla (Ott-Qa, Finqa, OpenWikitables) donde se requiere razonamiento estructurado.
  • Recuperación de códigos (COIR)manejo de consultas de texto a código y código a texto.

¿Son lo suficientemente rápidos para el uso a gran escala?

La eficiencia es uno de los aspectos destacados de estos modelos. En una GPU NVIDIA H100, la Granito-incrustante-inglés-r2 codifica casi 200 documentos por segundoque es significativamente más rápido que BGE pequeño y E5 pequeño. El granito más grande-in-inglés-r2 también alcanza 144 documentos por segundosuperando a muchas alternativas basadas en Modernbert.

De manera crucial, estos modelos siguen siendo prácticos incluso en las CPU, lo que permite a las empresas ejecutarlos en entornos menos intensivos en GPU. Este equilibrio de velocidad, tamaño compacto y precisión de recuperación Los hace muy adaptables para la implementación del mundo real.

¿Qué significa esto para la recuperación en la práctica?

Los modelos R2 de incrustación de granito de IBM demuestran que los sistemas de incrustación no necesitan recuentos de parámetros masivos para ser efectivos. Ellos combinan Soporte de contexto largo, precisión líder en referencia y alto rendimiento en arquitecturas compactas. Para las empresas que construyen tuberías de recuperación, sistemas de gestión del conocimiento o flujos de trabajo de trapo, Granite R2 proporciona un Alternativa comercialmente viable lista para la producción a las opciones de código abierto existentes.

https://arxiv.org/abs/2508.21085

Resumen

En resumen, los modelos R2 de granito de IBM logran un equilibrio efectivo entre el diseño compacto, la capacidad de contexto largo y el fuerte rendimiento de la recuperación. Con el rendimiento optimizado para los entornos de GPU y CPU, y una licencia Apache 2.0 que permite un uso comercial sin restricciones, presentan una alternativa práctica a las incrustaciones de código abierto más voluminosos. Para las empresas que implementan sistemas de conocimiento de trapo, búsqueda o a gran escala, Granite R2 se destaca como una opción eficiente y lista para la producción.


Mira el Papel, Granito-incrustante-inglés-r2 y Granito-INGLISH-R2. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.