Se lanzó Jina-ColBERT-v2: un modelo de recuperación multilingüe innovador que logra un aumento del rendimiento del 6,6 % y una reducción del almacenamiento del 50 % en diversos puntos de referencia

El campo de la recuperación de información (IR) ha evolucionado rápidamente, especialmente con la integración de redes neuronales, que han transformado la forma en que se recuperan y procesan los datos. Los sistemas de recuperación neuronal han adquirido cada vez mayor importancia, en particular los que utilizan modelos densos y multivectoriales. Estos modelos codifican consultas y documentos como vectores de alta dimensión y capturan señales de relevancia más allá de la coincidencia de palabras clave, lo que permite procesos de recuperación más matizados. Sin embargo, a medida que crece la demanda de aplicaciones multilingües, el desafío de mantener el rendimiento y la eficiencia en diferentes idiomas se hace más pronunciado. Este cambio ha hecho que sea esencial desarrollar modelos que no solo sean robustos y precisos, sino también eficientes en el manejo de conjuntos de datos diversos y de gran escala sin requerir amplios recursos computacionales.

Un problema importante en el panorama actual de las relaciones con los idiomas es el equilibrio entre el rendimiento del modelo y la eficiencia de los recursos, en particular en entornos multilingües. Si bien son eficientes en términos de almacenamiento y computación, los modelos monovectoriales tradicionales a menudo necesitan más capacidad para generalizarse en diferentes idiomas. Esta limitación es especialmente problemática ya que más aplicaciones requieren capacidades de recuperación en varios idiomas. Los modelos multivectoriales, como ColBERT, ofrecen una solución al permitir interacciones más granulares a nivel de token, lo que puede mejorar la precisión de la recuperación. Sin embargo, estos modelos tienen el inconveniente de mayores requisitos de almacenamiento y sobrecarga computacional, lo que los hace menos prácticos para aplicaciones multilingües a gran escala.

Los modelos monovectoriales se han utilizado ampliamente debido a su simplicidad y eficiencia. Codifican una consulta o documento como un único vector, que luego se utiliza para medir la relevancia a través de la similitud de cosenos. Sin embargo, estos modelos a menudo necesitan ponerse al día en contextos multilingües donde se deben capturar matices lingüísticos más complejos. Los modelos multivectoriales, como el ColBERT original, ofrecen una alternativa al representar consultas y documentos como colecciones de incrustaciones de tokens más pequeños. Este enfoque permite interacciones más detalladas entre tokens, lo que mejora la capacidad del modelo para capturar la relevancia en entornos multilingües. A pesar de sus ventajas, estos modelos requieren significativamente más almacenamiento y potencia computacional, lo que limita su aplicabilidad en escenarios del mundo real a gran escala.

Investigadores de la Universidad de Texas en Austin y Jina AI GmbH han presentado Jina-ColBERT-v2una versión avanzada del modelo ColBERT diseñada específicamente para abordar las deficiencias de los métodos actuales. Este nuevo modelo incorpora varias mejoras significativas, en particular en el manejo eficaz de datos multilingües. El equipo de investigación se ha centrado en mejorar la arquitectura y el proceso de entrenamiento del modelo ColBERT. Para mejorar la eficiencia de la inferencia, su enfoque incluye el uso de una versión modificada de la estructura principal XLM-RoBERTa, optimizada con atención flash e incrustaciones posicionales rotativas. El proceso de entrenamiento se divide en dos etapas: una fase inicial de ajuste contrastivo a gran escala y una fase de ajuste fino más específica con destilación supervisada. Estas mejoras permiten que Jina-ColBERT-v2 reduzca los requisitos de almacenamiento hasta en un 50% en comparación con sus predecesores, al tiempo que sigue ofreciendo un rendimiento sólido en varias tareas de recuperación en inglés y multilingües.

La tecnología detrás Jina-ColBERT-v2 es una combinación de varias técnicas de vanguardia para mejorar la eficiencia y la eficacia en la recuperación de información. Una innovación clave es el uso de múltiples cabezales de proyección lineal durante el entrenamiento, lo que permite que el modelo elija diferentes tamaños de incrustación de tokens en el momento de la inferencia con una pérdida mínima de rendimiento. Esta flexibilidad se logra mediante la pérdida de representación de Matryoshka, que permite que el modelo mantenga el rendimiento incluso cuando se reduce la dimensionalidad de las incrustaciones de tokens. La columna vertebral del modelo, Jina-XLM-RoBERTa, incorpora mecanismos de atención flash e incrustaciones posicionales rotativas, lo que mejora su rendimiento durante la inferencia. Estos avances tecnológicos mejoran la capacidad del modelo para manejar datos multilingües y lo hacen más eficiente en el almacenamiento y el cálculo.

El rendimiento de Jina-ColBERT-v2 Se ha probado rigurosamente en múltiples pruebas comparativas, lo que demuestra su eficacia tanto en contextos ingleses como multilingües. En la prueba comparativa BEIR, Jina-ColBERT-v2 mostró una mejora media del 6,6 % con respecto a ColBERTv2, lo que destaca sus capacidades de recuperación superiores. El modelo también tuvo un buen rendimiento en la prueba comparativa LoTTE, que se centra en consultas de cola larga, con una mejora del 6,1 % con respecto a su predecesor. En tareas de recuperación multilingüe, Jina-ColBERT-v2 superó a los modelos existentes como mDPR y ColBERT-XM en varios idiomas, incluidos árabe, chino y español. La capacidad del modelo para ofrecer una alta precisión de recuperación al tiempo que reduce las necesidades de almacenamiento hasta en un 50 % lo convierte en un avance significativo en la recuperación de información. Estos resultados subrayan el potencial del modelo para aplicaciones del mundo real donde el rendimiento y la eficiencia son fundamentales.

En conclusión, la Jina-ColBERT-v2 El modelo aborda el doble desafío de mantener una alta precisión de recuperación y, al mismo tiempo, reducir significativamente los requisitos de almacenamiento y computación. El equipo de investigación ha creado un modelo poderoso y eficiente que incorpora técnicas avanzadas como atención instantánea, incrustaciones posicionales rotatorias y pérdida de representación de Matryoshka. Las mejoras de rendimiento demostradas en varios puntos de referencia validan el potencial del modelo para una adopción generalizada en entornos académicos e industriales. Jina-ColBERT-v2 es un testimonio de la innovación continua en el campo de la recuperación de información y ofrece una solución prometedora para el futuro del procesamiento de datos multilingües.


Echa un vistazo a la Papel y API. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.