SalesForce AI Research presentó LlamaRank: un reranker de última generación para una mejor recuperación de documentos y búsqueda de códigos, que supera a Cohere Rerank v3 y Mistral-7B QLM en precisión

La clasificación de documentos sigue siendo uno de los temas más importantes en el desarrollo de la recuperación de información y el procesamiento del lenguaje natural. La recuperación y la clasificación efectivas de documentos son muy importantes para mejorar el rendimiento de los motores de búsqueda, los sistemas de preguntas y respuestas y los sistemas de recuperación aumentada por generación (RAG). Los modelos de clasificación tradicionales a menudo necesitan ayuda para encontrar un buen equilibrio entre la precisión de los resultados y la eficiencia computacional, especialmente en lo que respecta a conjuntos de datos a gran escala y múltiples tipos de consultas. En su lugar, ha resurgido, alto y claro, la necesidad de modelos avanzados con capacidad en tiempo real para proporcionar resultados precisos y contextualmente relevantes a partir de flujos de datos siempre activos y una complejidad de consultas cada vez mayor.

Salesforce AI Research ha presentado el reranker de última generación, a saber, LlamaRank. Este modelo mejora el rendimiento de los procesos de generación aumentada de recuperación al mejorar significativamente la clasificación de documentos y las tareas de búsqueda de código en varios conjuntos de datos. El hecho de que LlamaRank se base en la arquitectura Llama3-8B-Instruct une de manera eficaz los mecanismos de puntuación lineales y calibrados avanzados para lograr velocidad e interpretabilidad.

El equipo de investigación de inteligencia artificial de Salesforce diseñó cuidadosamente LlamaRank como una herramienta especializada para la clasificación de relevancia de documentos. Con el respaldo de comentarios iterativos sobre políticas de su equipo de anotación de datos RLHF altamente dedicado, LlamaRank hace un gran trabajo, supera a muchas API líderes en la clasificación general de documentos y redefine el rendimiento de vanguardia en la búsqueda de código. Los datos de entrenamiento incluyen datos sintetizados de alta calidad de Llama3-70B y Llama3-405B, junto con anotaciones etiquetadas por humanos, que cubren dominios que van desde la búsqueda basada en temas y el control de calidad de documentos hasta el control de calidad de código.

En los sistemas RAG, hay un reranker en el núcleo, como LlamaRank. Primero, se procesa una consulta de una manera muy barata pero menos precisa (por ejemplo, búsqueda semántica con incrustaciones) para devolver una lista de documentos candidatos que podrían ser útiles. El reranker refina este conjunto de una manera más sutil para averiguar qué documento es más relevante para la consulta. En otras palabras, esta selección final garantiza que el modelo de lenguaje se ajuste con precisión únicamente con la información más relevante, lo que contribuye a una mayor precisión y coherencia en las respuestas de salida.

La arquitectura de LlamaRank se basa en Llama3-8B-Instruct, donde los datos de entrenamiento incluyen tanto datos sintéticos como ejemplos etiquetados por humanos. El vasto y variado corpus permite que LlamaRank funcione bien en varias tareas, desde la recuperación general de documentos hasta búsquedas más especializadas de ejemplos de código. El modelo se afinó aún más en múltiples ciclos de comentarios del equipo de anotación de datos de Salesforce hasta que se logró una precisión y relevancia óptimas en las predicciones de puntuación. Durante la inferencia, el modelo predice las probabilidades de los tokens y calcula una puntuación de relevancia numérica que permite una reclasificación fácil y eficiente.

LlamaRank se ha probado en varios conjuntos de datos públicos y se ha demostrado que ofrece resultados sólidos en la evaluación del rendimiento. Por ejemplo, el conocido conjunto de datos SQuAD para la respuesta a preguntas encontró que LlamaRank acumulaba una tasa de aciertos del 99,3 %. Para el conjunto de datos TriviaQA, LlamaRank registró una tasa de aciertos del 92,0 %. En la búsqueda de código de referencia, el modelo se evalúa en términos de una métrica de tasa de aciertos en el conjunto de datos Neural Code Search con una tasa de aciertos del 81,8 % y en el conjunto de datos TrailheadQA con una tasa de aciertos del 98,6 %. Estos resultados subrayan la versatilidad y la eficiencia en el manejo de una amplia gama de tipos de documentos y escenarios de consulta, lo que distingue a LlamaRank.

Las especificaciones técnicas de LlamaRank son aún más destacadas. El modelo admite hasta 8000 tokens por documento, lo que supera significativamente a la competencia, como el reranker de Cohere. Permite lograr un rendimiento de baja latencia, clasificando 64 documentos en menos de 200 ms con una sola GPU H100 mucho más rápido que los ~3,13 s de la API sin servidor de Cohere. Además, LlamaRank tiene una calibración de puntuación lineal. Por lo tanto, es muy claro en cuanto a las puntuaciones de relevancia, lo que lo hace mejor y más interpretable para el usuario.

Además, LlamaRank también disfruta de los beneficios de la escala de tamaño del modelo y de un rendimiento superior evidente. Aun así, este gran tamaño, 8B parámetros, puede estar cerca de los límites superiores del modelo de reclasificación. Investigaciones posteriores sugieren optimizar el tamaño del modelo para lograr dicho equilibrio entre calidad y eficiencia.

Por último, LlamaRank de Salesforce AI Research representa un importante avance en la tecnología de reclasificación de última generación, que promete mejorar significativamente la eficacia de los sistemas RAG en una amplia gama de aplicaciones. El modelo LlamaRank, cuya eficacia durante el procesamiento y un conjunto de puntuaciones sólido y lúcido han sido probados, supone un avance en los métodos y sistemas de última generación en la recuperación de documentos y la precisión de las búsquedas. La comunidad está esperando la adopción y el desarrollo de este LlamaRank.


Echa un vistazo a la Detalles y Pruébalo aquí. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’


Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.