Conozca Turbovec: un índice de vectores de óxido con enlaces de Python y construido sobre el algoritmo TurboQuant de Google

La búsqueda de vectores sustenta la mayoría de los canales de generación aumentada de recuperación (RAG). A escala, resulta caro. Almacenar 10 millones de documentos incrustados en float32 consume 31 GB de RAM. Para los equipos de desarrollo que ejecutan inferencia local o local, ese número crea limitaciones reales.

Una nueva biblioteca de código abierto llamada turbovec aborda esto directamente. Es un índice vectorial escrito en Rust con enlaces de Python. Está construido sobre TurboQuant, un algoritmo de cuantificación de Google Research. El mismo corpus de 10 millones de documentos cabe en 4 GB con turbovec. En hardware ARM, la velocidad de búsqueda supera a FAISS IndexPQFastScan entre un 12% y un 20%.

El papel TurboQuant

TurboQuant fue presentado por el equipo de investigación de Google. El equipo de Google propone TurboQuant como un cuantificador ajeno a los datos. Logra tasas de distorsión casi óptimas en todos los anchos y dimensiones de bits. No requiere entrenamiento ni pases sobre los datos.

La mayoría de los cuantificadores vectoriales de producción, incluida la cuantificación de productos de FAISS, requieren un paso de capacitación en el libro de códigos. Debe ejecutar k-means sobre una muestra representativa de sus vectores antes de que comience la indexación. Si su corpus crece o cambia, es posible que necesite volver a entrenar y reconstruir el índice por completo. TurboQuant se salta todo eso. Utiliza una propiedad analítica de vectores rotados en lugar de una calibración dependiente de los datos.

Cómo turbovec cuantifica los vectores

El proceso de cuantificación tiene cuatro pasos:

(1) Cada vector está normalizado. La longitud (norma) se elimina y se almacena como un solo flotador. Cada vector se convierte en una dirección unitaria en una hiperesfera de alta dimensión.

(2) Se aplica una rotación aleatoria. Todos los vectores se multiplican por la misma matriz ortogonal aleatoria. Después de la rotación, cada coordenada sigue independientemente una distribución Beta. En dimensiones altas, esto converge a Gaussiano N(0, 1/d). Esto es válido para cualquier dato de entrada: la rotación hace que la distribución de coordenadas sea predecible.

(3) Se aplica la cuantificación escalar Lloyd-Max. Debido a que la distribución se conoce analíticamente, los límites y centroides óptimos del segmento se pueden calcular previamente únicamente a partir de matemáticas. Para una cuantificación de 2 bits, eso significa 4 depósitos por coordenada. Para 4 bits, significa 16 depósitos. No se necesitan pases de datos.

(4) Las coordenadas cuantificadas se empaquetan en bytes. Un vector de 1536 dimensiones se reduce de 6144 bytes en FP32 a 384 bytes en 2 bits. Esa es una relación de compresión de 16x.

En el momento de la búsqueda, la consulta se rota una vez al mismo dominio. La puntuación se realiza directamente en función de los valores del libro de códigos. El kernel de puntuación utiliza elementos intrínsecos SIMD (NEON en ARM y AVX-512BW en x86 moderno, con un respaldo AVX2) con tablas de búsqueda divididas por nibble para el rendimiento.

TurboQuant logra una distorsión dentro de aproximadamente 2,7 veces el límite inferior de Shannon teórico de la información.

Recordación y velocidad: los números

Todos los puntos de referencia utilizan 100.000 vectores, 1000 consultas, k = 64 e informan la mediana de 5 ejecuciones.

Para recordar, turbovec se compara con FAISS IndexPQ (LUT256, nbits=8, float32 LUT). Esta es una base sólida: FAISS utiliza un LUT de mayor precisión en el momento de la puntuación y k-means++ para el entrenamiento del libro de códigos. A pesar de esto, TurboQuant y FAISS están entre 0 y 1 punto en R@1 para incrustaciones de OpenAI en d=1536 y d=3072. Ambos convergen a una recuperación de 1,0 en k = 4–8. Guante en d=200 es más difícil. En esa dimensión, TurboQuant sigue a FAISS entre 3 y 6 puntos en R @ 1, cerrando en k≈16–32.

En cuanto a la velocidad, los resultados de ARM (Apple M3 Max) muestran que turbovec supera al FAISS IndexPQFastScan entre un 12% y un 20% en todas las configuraciones. En x86 (Intel Xeon Platinum 8481C / Sapphire Rapids, 8 vCPU), turbovec gana cada configuración de 4 bits entre un 1% y un 6%. Se ejecuta dentro de ~1% de FAISS en un solo subproceso de 2 bits. Dos configuraciones se sitúan ligeramente por detrás de FAISS: multiproceso de 2 bits en d=1536 y d=3072. Allí, el circuito de acumulación interno es demasiado corto para desenrollar la amortización. La ruta VBMI AVX-512 de FAISS mantiene la ventaja en esos dos casos (2–4%).

API de Python

La instalación es un solo comando: pip install turbovec. La clase principal es TurboQuantIndex, inicializada con una dimensión y un ancho de bits.

de turbovec import TurboQuantIndex index = TurboQuantIndex(dim=1536, bit_width=4) index.add(vectors) puntuaciones, indices = index.search(query, k=10) index.write(“my_index.tq”)

Una segunda clase, IdMapIndex, admite ID uint64 externos estables que sobreviven a las eliminaciones. La eliminación es O(1) por ID. Esto es útil para almacenes de documentos donde los vectores se actualizan o eliminan con frecuencia.

turbovec se integra con LangChain (pip install turbovec[langchain]), LlamaIndex (pip instalar turbovec[llama-index]) y Haystack (pip install turbovec[haystack]). La caja Rust está disponible a través de cargo add turbovec.

Explicador visual de Marktechpost

¿Qué es turbovec?

turbovec es un índice vectorial escrito en Rust con enlaces de Python. Se basa en el algoritmo TurboQuant de Google Research, un cuantificador que no tiene en cuenta los datos y que no requiere entrenamiento con un libro de códigos. Un corpus de 10 millones de documentos que ocupa 31 GB como float32 caben en 4 GB con turbovec.

⚡ Compresión 16x a 2 bits

💨 Supera a FAISS en ARM entre un 12% y un 20%

🔒 Totalmente local: sin salida de datos

📦 licencia MIT

Instalación

Instale el paquete Python desde PyPI con un solo comando. Para Rust, agregue la caja a través de Cargo.

# Pitón
instalación de pipas turbovec

# Óxido
agregar carga turbovec

Nota: Para compilar desde el código fuente, instale madurar luego corre construcción de maturina – lanzamiento dentro del turbovec-python/ directorio. Para Rust, ejecute construcción de carga – liberación.

Uso básico: TurboQuantIndex

TurboQuantIndex es la clase primaria. Inicializarlo con un vector oscuro y un ancho_bit de 2 o 4. Los vectores se indexan inmediatamente en agregar() — no se requiere ningún paso de capacitación.

de turbovec importar TurboQuantIndex

índice = TurboQuantIndex(tenue=1536ancho_bit=4)

# Agregar vectores (matriz numpy float32, forma [n, dim])
índice.agregar(vectores) índice.agregar(más_vectores) # adiciones incrementales están bien

# Búsqueda: devuelve puntuaciones top-k e índices posicionales
puntuaciones, índices = índice.buscar(consulta, k=10)

ID estables: IdMapIndex

Usar IdMapÍndice cuando necesitas externo uint64 ID que sobreviven a las eliminaciones. La eliminación es O(1) por ID, lo que resulta útil para almacenes de documentos donde los vectores cambian con el tiempo.

importar engordado como notario público
de turbovec importar IdMapÍndice

índice = IdMapÍndice(tenue=1536ancho_bit=4)

# Asigne vectores a sus propios ID externos uint64
índice.agregar_con_id(vectores, np.formación([1001, 1002, 1003]dtype=np.uint64))

# La búsqueda devuelve sus ID externos, no índices posicionales
puntuaciones, ids = índice.buscar(consulta, k=10)

# O(1) eliminar por ID externo\nindex.eliminar(1002)

Guardar y cargar un índice

Ambos tipos de índice admiten almacenamiento persistente. TurboQuantIndex escribe a .tq archivos. IdMapÍndice escribe a .tvim archivos.

de turbovec importar TurboQuantIndex, IdMapÍndice

# TurboQuantIndex —> .tq
índice.escribir(“mi_índice.tq”) cargado = TurboQuantIndex.carga(“mi_índice.tq”)

# IdMapIndex —> .tvim
índice.escribir(“mi_index.tvim”) cargado = IdMapÍndice.carga(“mi_index.tvim”)

Integraciones de marco

turbovec incluye extras opcionales para LangChain, LlamaIndex y Haystack. Instale el extra que coincida con su pila.

# LangChain
instalación de pipas turbovec[langchain]

#LlamaÍndice
instalación de pipas turbovec[llama-index]

# pajar
instalación de pipas turbovec[haystack]

Consejo: Cada integración conecta turbovec como un almacén de vectores directo. Ver documentos/integraciones/ en el repositorio para ver ejemplos de uso completos de cada marco.

Usando turbovec en Rust

La API de Rust refleja la API de Python. Ambos TurboQuantIndex y IdMapÍndice están disponibles. Todas las compilaciones x86_64 tienen como objetivo AVX2 como base; AVX-512 se habilita en tiempo de ejecución mediante la detección de funciones.

usar turbovec::TurboQuantIndex;

deja que mute índice = TurboQuantIndex::nuevo(1536, 4); índice.agregar(&vectores);

dejar resultados = índice.buscar(& consultas, 10); índice.escribir(“index.tv”).desenvolver();
dejar cargado = TurboQuantIndex::carga(“index.tv”).desenvolver();

📚 API completa: documentos/api.md

⭐ github.com/RyanCodrai/turbovec

Conclusiones clave

Sin formación en libros de códigos. turbovec indexa vectores instantáneamente: sin k-medias, sin reconstrucciones a medida que crece el corpus. Compresión 16x. Un vector float32 de 1536 dimensiones se reduce de 6144 bytes a 384 bytes con una cuantificación de 2 bits. Más rápido que FAISS en ARM. turbovec supera a FAISS IndexPQFastScan entre un 12% y un 20% en ARM en todas las configuraciones. Distorsión casi óptima. TurboQuant logra una distorsión dentro de ~2,7x del límite inferior de Shannon, probablemente cerca del límite teórico. Totalmente local. Sin servicio administrado, sin salida de datos: se combina con cualquier modelo de integración de código abierto para una pila RAG aislada.

Consulte el repositorio aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Conozca Turbovec: un índice de vectores de óxido con enlaces de Python y construido sobre el algoritmo TurboQuant de Google

ByEquipo de 7 minutos

El papel TurboQuant

Cómo turbovec cuantifica los vectores

Recordación y velocidad: los números

API de Python

Explicador visual de Marktechpost

Conclusiones clave

By Equipo de 7 minutos

Related Post

Tutorial Cosmos-Framework de NVIDIA: Diseño de una miniatura compatible con Colab de modelos del mundo Cosmos 3 con una mezcla omnimodal de transformadores

Cómo los codificadores novatos pueden desarrollar programas de inteligencia artificial para aplicaciones militares | Noticias del MIT

Antidoom de código abierto con IA líquida: un método de optimización de preferencia de token final (FTPO) que reduce los bucles fatales en los modelos de razonamiento

You missed

Tutorial Cosmos-Framework de NVIDIA: Diseño de una miniatura compatible con Colab de modelos del mundo Cosmos 3 con una mezcla omnimodal de transformadores

Los astrónomos descubren algunos de los quásares primordiales más extremos del universo

El juez Peinado defiende la retirada de pasaporte a Begoña Gómez y recuerda a un expresidente que huyó de Italia

El precio de 13.200 millones de dólares de Lovable apuesta contra sus propios proveedores