Lighton AI lanzó GTE-Moderncolbert-V1: un modelo de búsqueda semántica de nivel token escalable para recuperación de documentos largos y rendimiento líder en referencia

La recuperación semántica se centra en comprender el significado detrás del texto en lugar de hacer coincidir las palabras clave, lo que permite que los sistemas proporcionen resultados que se alineen con la intención del usuario. Esta capacidad es esencial en todos los dominios que dependen de la recuperación de información a gran escala, como la investigación científica, el análisis legal y los asistentes digitales. Los métodos tradicionales basados ​​en palabras clave no pueden capturar el matiz del lenguaje humano, a menudo recuperando resultados irrelevantes o imprecisos. Los enfoques modernos se basan en convertir el texto en representaciones vectoriales de alta dimensión, lo que permite comparaciones más significativas entre consultas y documentos. Estas incrustaciones tienen como objetivo preservar las relaciones semánticas y proporcionar resultados más contextualmente relevantes durante la recuperación.

Entre muchos, el principal desafío en la recuperación semántica es el manejo eficiente de documentos largos y consultas complejas. Muchos modelos están restringidos por ventanas de token de longitud fija, comúnmente alrededor de 512 o 1024 tokens, lo que limita su aplicación en dominios que requieren procesamiento de artículos de longitud completa o documentos de varios párrafos. Como resultado, la información crucial que aparece más adelante en un documento puede ser ignorada o truncada. Además, el rendimiento en tiempo real a menudo se ve comprometido debido al costo computacional de integrar y comparar grandes documentos, especialmente cuando la indexación y consulta deben ocurrir a escala. La escalabilidad, la precisión y la generalización para los datos invisibles siguen siendo desafíos persistentes en la implementación de estos modelos en entornos dinámicos.

En investigaciones anteriores, modelos como Modernbert y otras herramientas basadas en el transformador de oraciones han dominado el espacio semántico de incrustación. A menudo usan técnicas medias de agrupación o de agregación simples para generar vectores de oraciones sobre incrustaciones contextuales. Si bien tales métodos funcionan para documentos cortos y de longitud moderada, luchan por mantener la precisión cuando se enfrentan con secuencias de entrada más largas. Estos modelos también se basan en comparaciones de vectores densos, que se vuelven computacionalmente costosos al manejar millones de documentos. Además, a pesar de que funcionan bien en puntos de referencia estándar como la Sra. Marco, muestran una generalización reducida a diversos conjuntos de datos, y con frecuencia se requiere un ajuste de contextos específicos.

Investigadores de Lighton Ai introdujeron GTE-Moderncolbert-V1. Este modelo se basa en la arquitectura de Colbert, que integra la Fundación Modernbert desarrollada por Alibaba-NLP. Al destilar el conocimiento de un modelo base y optimizarlo en el conjunto de datos MS Marco, el equipo tenía como objetivo superar las limitaciones relacionadas con la longitud del contexto y la preservación semántica. El modelo fue entrenado utilizando entradas de documentos de 300 token, pero demostró la capacidad de manejar entradas tan grandes como tokens 8192. Esto lo hace adecuado para indexar y recuperar documentos más largos con una pérdida de información mínima. Su trabajo se implementó a través de Pylate, una biblioteca que simplifica la indexación y consulta de documentos utilizando modelos vectoriales densos. El modelo admite la coincidencia semántica a nivel de token utilizando el operador MaxSim, que evalúa la similitud entre los incrustaciones de tokens individuales en lugar de comprimirlos en un solo vector.

GTE-Moderncolbert-V1 transforma el texto en vectores densos de 128 dimensiones y utiliza la función MAXSIM para calcular la similitud semántica entre la consulta y los tokens de documentos. Este método conserva el contexto granular y permite la recuperación de fino. Se integra con el sistema de indexación Voyager de Pylate, que gestiona incrustaciones a gran escala utilizando un índice HNSW eficiente (jerárquico navegable pequeño). Una vez que los documentos están integrados y almacenados, los usuarios pueden recuperar documentos relevantes de Top-K utilizando el Colbert Retriever. El proceso admite la indexación completa de la tubería y el reamino ligero para los sistemas de recuperación de la primera etapa. Pylate proporciona flexibilidad para modificar la longitud del documento durante la inferencia, lo que permite a los usuarios manejar los textos mucho más tiempo de lo que el modelo fue entrenado originalmente, una ventaja que rara vez se ve en los modelos de incrustación estándar.

En el conjunto de datos de nanoclimación, el modelo logró una precisión maxSim@1 de 0.360, precisión@5 de 0.780 y precisión@10 de 0.860. Los puntajes de precisión y retiro fueron consistentes, con MaxSim RetRark@3 que alcanzó 0.289 y Precisión@3 a 0.233. Estos puntajes reflejan la capacidad del modelo para recuperar resultados precisos incluso en escenarios de recuperación de contexto más largo. Cuando se evalúa en el punto de referencia Beir, GTE-Moderncolbert superó a los modelos anteriores, incluido Colbert-Small. Por ejemplo, obtuvo 54.89 en el conjunto de datos FIQA2018, 48.51 en NFCorpus y 83.59 en la tarea TREC-Covid. El rendimiento promedio en estas tareas fue significativamente mayor que las variantes de base de base. En particular, en el punto de referencia longo, el modelo obtuvo 88.39 en puntaje promedio y 78.82 en recuperación de control de calidad narrativa Lember, superando a otros modelos principales como Voyage-Multilingüe-2 (79.17) y BGE-M3 (58.73).

Estos resultados sugieren que el modelo ofrece una generalización sólida y un manejo efectivo de documentos de contexto largo, superando a muchos contemporáneos por casi 10 puntos en tareas de contexto largo. También es altamente adaptable a las diferentes tuberías de recuperación, que respalda la indexación y las implementaciones de relevación. Tal versatilidad lo convierte en una solución atractiva para la búsqueda semántica escalable.

Varios destacados clave de la investigación sobre GTE-Moderncolbert-V1 incluyen:

  1. GTE-Moderncolbert-V1 utiliza vectores densos 128-dimensionales con similitud MaxSim de nivel token, basado en fundaciones de Colbert y Modernbert.
  2. Aunque entrenado en documentos de 300 token, el modelo se generaliza a documentos de hasta 8192 tokens, mostrando adaptabilidad para tareas de recuperación de contexto largo.
  3. La precisión@10 alcanzó 0.860, el retiro@3 fue 0.289 y la precisión@3 fue 0.233, lo que demuestra una fuerte precisión de recuperación.
  4. En el punto de referencia Beir, el modelo obtuvo 83.59 en TREC-Covid y 54.89 en FIQA2018, superando a Colbert-Small y otras líneas de base.
  5. Logró un puntaje promedio de 88.39 en el punto de referencia longo y 78.82 en el control de calidad Narrativa Lember, superando a SOTA anterior por casi 10 puntos.
  6. Se integra con el índice Voyager de Pylate, admite las tuberías de recuperación y recuperación, y es compatible con una indexación eficiente de HNSW.
  7. El modelo se puede implementar en tuberías que requieren una búsqueda de documentos rápida y escalable, incluidas aplicaciones académicas, empresariales y multilingües.

En conclusión, esta investigación proporciona una contribución significativa a la recuperación semántica de documentos largos. Al combinar las fortalezas de la coincidencia de nivel de token con arquitectura escalable, GTE-Moderncolbert-V1 aborda varios cuellos de botella que enfrentan los modelos actuales. Presenta un método confiable para procesar y recuperar información semánticamente rica de contextos extendidos, mejorando significativamente la precisión y el recuerdo.


Mira el Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.