Screenshot 2024 08 23 At 12.18.34 Am.png

El campo del procesamiento del lenguaje natural ha avanzado considerablemente con la llegada de los grandes modelos lingüísticos (LLM), que han demostrado una notable capacidad para tareas como la de responder preguntas. Estos modelos, entrenados con amplios conjuntos de datos, pueden generar respuestas muy plausibles y adecuadas al contexto. Sin embargo, a pesar de su éxito, los LLM necesitan ayuda para gestionar consultas que requieren un uso intensivo de conocimientos. En concreto, estas consultas suelen requerir información actualizada o implican hechos poco claros que el modelo podría no haber encontrado todavía durante el entrenamiento. Esta limitación puede dar lugar a imprecisiones fácticas o a la generación de contenido alucinógeno, en particular cuando se presiona al modelo para que proporcione detalles que están fuera de su conocimiento almacenado. El problema se acentúa aún más cuando la precisión y la fiabilidad son primordiales, como en las investigaciones médicas o científicas.

Un desafío central en el desarrollo y la aplicación de los LLM es lograr un equilibrio óptimo entre precisión y eficiencia de procesamiento. Cuando los LLM deben responder consultas complejas que requieren integrar información de varias fuentes, a menudo necesitan ayuda para gestionar contextos largos. A medida que aumenta el número de documentos relevantes, también lo hace la complejidad del razonamiento, lo que puede abrumar la capacidad del modelo para procesar la información de manera eficiente. Esta ineficiencia ralentiza la generación de respuestas y aumenta la probabilidad de errores, en particular en escenarios en los que el modelo debe filtrar información contextual extensa para encontrar los detalles más relevantes. La necesidad de sistemas que puedan incorporar de manera eficiente el conocimiento externo, reduciendo tanto la latencia como el riesgo de imprecisiones, es, por lo tanto, un área crítica de investigación en el procesamiento del lenguaje natural.

Los investigadores han desarrollado métodos como la Generación Aumentada de Recuperación (RAG), que integra fuentes de conocimiento externas directamente en el proceso generativo de los LLM. Los sistemas RAG tradicionales recuperan múltiples documentos relacionados con la consulta y los incorporan a la entrada del modelo para garantizar una comprensión completa del tema. Si bien este enfoque ha demostrado ser eficaz para reducir los errores factuales, presenta nuevos desafíos. La inclusión de múltiples documentos aumenta significativamente la longitud de la entrada, lo que, a su vez, puede ralentizar el proceso de inferencia y complicar el razonamiento necesario para generar respuestas precisas. Algunos sistemas RAG avanzados intentan refinar la calidad de los documentos recuperados para mejorar la información contextual proporcionada al LLM. Sin embargo, estos métodos a menudo se centran en mejorar la precisión solo después de abordar adecuadamente los problemas de latencia asociados, que siguen siendo un cuello de botella significativo en la aplicación práctica de estos modelos.

Investigadores de la Universidad de California en San Diego, Google Cloud AI Research, Google DeepMind y Google Cloud AI presentaron un nuevo enfoque llamado Generación aumentada de recuperación especulativa (RAG especulativa)Este marco combina de manera innovadora las fortalezas de los modelos de lenguaje tanto especializados como generalistas para mejorar la eficiencia y la precisión en la generación de respuestas. La idea central detrás de Speculative RAG es aprovechar un LM especializado más pequeño que pueda generar múltiples borradores de respuestas potenciales en paralelo. Cada borrador se crea a partir de un subconjunto distinto de documentos recuperados en función de la consulta para capturar diversas perspectivas y reducir la redundancia. Una vez que se generan estos borradores, un LM generalista más grande interviene para verificarlos. El LM generalista evalúa la coherencia y la relevancia de cada borrador, y finalmente selecciona el más preciso para la respuesta final. Este método reduce de manera efectiva la cantidad de tokens de entrada por borrador, lo que mejora la eficiencia del proceso de generación de respuestas sin comprometer la precisión de las respuestas.

El RAG especulativo emplea una estrategia de dividir y vencer que divide los documentos recuperados en subconjuntos según la similitud de contenido. Los documentos se agrupan utilizando técnicas de agrupamiento y se toma una muestra de un documento de cada grupo para formar un subconjunto diverso. Luego, el LM especializado procesa estos subconjuntos y genera borradores de respuestas junto con los fundamentos correspondientes. Luego, el LM generalista evalúa estos borradores calculando un puntaje de confianza basado en la coherencia del borrador y su razonamiento. Este enfoque minimiza la redundancia en los documentos recuperados y garantiza que la respuesta final esté informada por múltiples perspectivas, lo que mejora la calidad y la confiabilidad generales de la respuesta.

El rendimiento de Speculative RAG se ha probado rigurosamente en comparación con los métodos tradicionales de RAG en varios puntos de referencia, incluidos TriviaQA, PubHealth y ARC-Challenge. Los resultados son convincentes: Speculative RAG mejora la precisión hasta en un 12,97 % en el punto de referencia PubHealth, al tiempo que reduce la latencia en un 51 %. En el punto de referencia TriviaQA, el método logró una mejora de la precisión del 2,15 % y una reducción de la latencia del 23,41 %. En el punto de referencia ARC-Challenge, la precisión aumentó un 2,14 %, con una reducción de la latencia correspondiente del 26,73 %. Estas cifras subrayan la eficacia del marco Speculative RAG para ofrecer respuestas de alta calidad de manera más eficiente que los sistemas RAG convencionales.

En conclusión, Speculative RAG aborda de manera efectiva las limitaciones de los sistemas RAG tradicionales al combinar estratégicamente las fortalezas de modelos de lenguaje más pequeños y especializados con modelos más grandes y generalistas. La capacidad del método para generar múltiples borradores en paralelo, reducir la redundancia y aprovechar diversas perspectivas garantiza que el resultado final sea preciso y se produzca de manera eficiente. Las mejoras sustanciales de Speculative RAG en precisión y latencia en múltiples puntos de referencia resaltan su potencial para establecer nuevos estándares en la aplicación de LLM para consultas complejas e intensivas en conocimiento. A medida que el procesamiento del lenguaje natural continúa evolucionando, enfoques como Speculative RAG probablemente desempeñarán un papel crucial en la mejora de las capacidades de los modelos de lenguaje y las aplicaciones prácticas en varios dominios.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Más de 49 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.