Answer.AI lanza answerai-colbert-small: una prueba de concepto para modelos ColBERT más pequeños, rápidos y modernos

AnswerAI ha presentado un modelo robusto llamado answerai-colbert-small-v1, que muestra el potencial de los modelos multivectoriales cuando se combinan con técnicas de entrenamiento avanzadas. Este modelo de prueba de concepto, desarrollado utilizando la innovadora receta de entrenamiento JaColBERTv2.5 y optimizaciones adicionales, demuestra un rendimiento notable a pesar de su tamaño compacto de solo 33 millones de parámetros. La eficiencia del modelo es particularmente notable, ya que logra estos resultados manteniendo un espacio comparable al de MiniLM.

En un sorprendente giro de los acontecimientos, answerai-colbert-small-v1 ha superado el rendimiento de todos los modelos anteriores de tamaño similar en los puntos de referencia comunes. Aún más impresionante, ha superado el rendimiento de modelos mucho más grandes y ampliamente utilizados, incluidos e5-large-v2 y bge-base-en-v1.5. Este logro subraya el potencial del enfoque de AnswerAI para ampliar los límites de lo que es posible con modelos de IA más pequeños y eficientes.

Los recuperadores multivectoriales, introducidos a través de la arquitectura del modelo ColBERT, ofrecen un enfoque único para la representación de documentos. A diferencia de los métodos tradicionales que crean un único vector por documento, ColBERT genera múltiples vectores más pequeños, cada uno de los cuales representa un único token. Esta técnica aborda la pérdida de información que suele asociarse con las representaciones de un solo vector, en particular en las tareas de generalización fuera del dominio. La arquitectura también incorpora la ampliación de consultas, utilizando el modelado de lenguaje enmascarado para mejorar el rendimiento de la recuperación.

El innovador mecanismo de puntuación MaxSim de ColBERT calcula la similitud entre los tokens de consulta y de documento, sumando las similitudes más altas para cada token de consulta. Si bien este enfoque mejora de manera constante la generalización fuera del dominio, inicialmente enfrentó desafíos con las tareas dentro del dominio y requirió recursos de memoria y almacenamiento significativos. ColBERTv2 abordó estos problemas al introducir una receta de entrenamiento más moderna, que incluye negativos en lotes y destilación de conocimiento, junto con un enfoque de indexación único que redujo los requisitos de almacenamiento.

En el contexto del idioma japonés, JaColBERTv1 y v2 han demostrado un éxito incluso mayor que sus contrapartes en inglés. JaColBERTv1, siguiendo la receta de entrenamiento ColBERT original, se convirtió en el recuperador japonés monolingüe más fuerte de su tiempo. JaColBERTv2, desarrollado sobre la receta ColBERTv2, mejoró aún más el rendimiento y actualmente se mantiene como el recuperador fuera de dominio más fuerte en todos los puntos de referencia japoneses existentes, aunque aún enfrenta algunos desafíos en tareas de recuperación a gran escala como MIRACL.

El modelo answerai-colbert-small-v1 ha sido diseñado específicamente teniendo en mente la compatibilidad futura, en particular para la próxima revisión de RAGatouille. Este enfoque con visión de futuro garantiza que el modelo seguirá siendo relevante y útil a medida que surjan nuevas tecnologías. A pesar de su diseño orientado al futuro, el modelo mantiene una amplia compatibilidad con las implementaciones recientes de ColBERT, lo que ofrece a los usuarios flexibilidad en la elección de herramientas y marcos.

Para aquellos interesados ​​en utilizar este modelo innovador, hay dos opciones principales disponibles. Los usuarios pueden optar por la biblioteca Stanford ColBERT, que es una implementación bien establecida y ampliamente utilizada. Alternativamente, pueden elegir RAGatouille, que puede ofrecer funciones adicionales u optimizaciones. El proceso de instalación de una o ambas bibliotecas es sencillo y requiere la ejecución de un comando simple para comenzar.

Fuente de la imagen: https://huggingface.co/answerdotai/answerai-colbert-small-v1

Los resultados del modelo answerai-colbert-small-v1 demuestran su rendimiento excepcional en comparación con los modelos de un solo vector.

Fuente de la imagen: https://huggingface.co/answerdotai/answerai-colbert-small-v1

El modelo answerai-colbert-small-v1 de AnswerAI representa un avance significativo en los sistemas de recuperación de múltiples vectores. A pesar de sus 33 millones de parámetros compactos, supera a modelos más grandes como e5-large-v2 y bge-base-en-v1.5. Construido sobre la arquitectura ColBERT y mejorado con la receta de entrenamiento JaColBERTv2.5, se destaca en la generalización fuera del dominio. El éxito del modelo se debe a su enfoque multivectorial, la ampliación de consultas y el mecanismo de puntuación MaxSim. Diseñado para compatibilidad futura, en particular con la próxima revisión de RAGatouille, sigue siendo compatible con las implementaciones recientes de ColBERT. Los usuarios pueden implementarlo fácilmente utilizando la biblioteca Stanford ColBERT o RAGatouille, lo que demuestra el potencial de AnswerAI para remodelar la eficiencia y el rendimiento de la IA.


Echa un vistazo a la Tarjeta modelo y Detalles. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí



Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.