La búsqueda basada en la incrustación supera los métodos tradicionales basados en palabras clave en varios dominios capturando la similitud semántica utilizando representaciones vectoriales densas y la búsqueda aproximada del vecino más cercano (ANN). Sin embargo, la estructura de datos ANN trae una sobrecarga excesiva de almacenamiento, a menudo 1.5 a 7 veces el tamaño de los datos sin procesar originales. Esta sobrecarga es manejable en aplicaciones web a gran escala, pero se vuelve poco práctico para dispositivos personales o grandes conjuntos de datos. Reducir el almacenamiento a menos del 5% del tamaño de los datos original es fundamental para la implementación de borde, pero las soluciones existentes se quedan cortas. Técnicas como la cuantización del producto (PQ) pueden reducir el almacenamiento, pero conducen a una disminución en la precisión o necesitan una mayor latencia de búsqueda.
Los métodos de búsqueda vectorial dependen de la FIV y los gráficos de proximidad. Los enfoques basados en gráficos como HNSW, NSG y Vamana se consideran de vanguardia debido a su equilibrio de precisión y eficiencia. Los esfuerzos para reducir el tamaño de los gráficos, como la selección de vecinos aprendidos, enfrentan limitaciones debido a los altos costos de capacitación y la dependencia de los datos etiquetados. Para entornos limitados por recursos, Diskann y Starling almacenan datos en el disco, mientras que FusionAnns optimiza el uso de hardware. Métodos como AISAQ y Edgerag intentan minimizar el uso de la memoria, pero aún sufren una alta sobrecarga de almacenamiento o degradación del rendimiento a escala. Las técnicas de compresión de incrustación como PQ y Rabitq proporcionan cuantificación con límites de error teóricos, pero lucha por mantener la precisión bajo presupuestos ajustados.
Los investigadores de UC Berkeley, CUHK, Amazon Web Services y UC Davis han desarrollado Leann, un índice de búsqueda ANN eficiente en almacenamiento optimizado para dispositivos personales limitados por recursos. Integra una estructura compacta basada en gráficos con una estrategia de recomputación sobre la marcha, que permite una recuperación rápida y precisa al tiempo que minimiza la sobrecarga de almacenamiento. LeAnn logra hasta 50 veces más pequeño almacenamiento que los índices estándar al reducir el tamaño del índice a menos del 5% de los datos sin procesar originales. Mantiene el 90% de retiro de Top-3 en menos de 2 segundos en puntos de referencia de preguntas de preguntas sobre el mundo real. Para reducir la latencia, LeAnn utiliza un algoritmo transversal de dos niveles y un lote dinámico que combina los cálculos de incrustación en los saltos de búsqueda, mejorando la utilización de GPU.
La arquitectura de Leann combina métodos centrales como la recomputación basada en gráficos, las técnicas principales y el flujo de trabajo del sistema. Construido en el marco HNSW, observa que cada consulta necesita incrustaciones para solo un subconjunto limitado de nodos, lo que provoca un cálculo a pedido en lugar de pre-almacenamiento de todos los incrustaciones. Para abordar los desafíos anteriores, LeAnn introduce dos técnicas: (a) un recorrido gráfico de dos niveles con un lote dinámico a una menor latencia de recomputación y (b) un alto grado de preservación de la poda de gráficos para reducir el almacenamiento de metadatos. En el flujo de trabajo del sistema, LeAnn comienza calculando las integridades para todos los elementos del conjunto de datos y luego construye un índice vectorial utilizando un enfoque de indexación basado en gráficos.
En términos de almacenamiento y latencia, LeAnn supera a Edgerag, un método de recomputación basado en FIV, logrando reducciones de latencia que van de 21.17 a 200.60 veces en varios conjuntos de datos y plataformas de hardware. Esta ventaja es de la complejidad de la recomputación polilogarítmica de Leann, que escala de manera más eficiente que el crecimiento de √𝑁 de Edgerag. En términos de precisión para las tareas de RAG aguas abajo, LeAnn alcanza un mayor rendimiento en la mayoría de los conjuntos de datos, excepto GPQA, donde un desajuste de distribución limita su efectividad. Del mismo modo, en HotPotqa, la configuración de recuperación de un solo salto limita las ganancias de precisión, ya que el conjunto de datos exige un razonamiento de múltiples saltos. A pesar de estas limitaciones, Leann muestra un fuerte rendimiento en diversos puntos de referencia.
En este documento, los investigadores introdujeron LeAnn, un sistema de recuperación neural eficiente en almacenamiento que combina la recomputación basada en gráficos con optimizaciones innovadoras. Al integrar un algoritmo de búsqueda de dos niveles y un lotes dinámicos, elimina la necesidad de almacenar incrustaciones completas, logrando reducciones significativas en la sobrecarga de almacenamiento mientras mantiene una alta precisión. A pesar de sus fortalezas, LeAnn enfrenta limitaciones, como el uso de almacenamiento máximo alto durante la construcción del índice, que podría abordarse a través de la pregranaje u otras técnicas. El trabajo futuro puede centrarse en reducir la latencia y mejorar la capacidad de respuesta, abriendo el camino para una adopción más amplia en entornos con recursos limitados.
Mira el Papel y Página de Github aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
