Google Deepmind encuentra un error fundamental en el trapo: la rotación de límites de incrustación a escala

Los sistemas de generación acuáticos (RAG) de recuperación generalmente dependen de modelos de incrustación densos que mapean consultas y documentos en espacios vectoriales de dimensiones fijas. Si bien este enfoque se ha convertido en el valor predeterminado para muchas aplicaciones de IA, una investigación reciente del equipo de Google Deepmind explica un limitación arquitectónica fundamental Eso no puede ser resuelto por modelos más grandes o un mejor entrenamiento solo.

¿Cuál es el límite teórico de la incrustación de dimensiones?

En el núcleo del problema está la capacidad de representación de los incrustaciones de tamaño fijo. Una incrustación de dimensión d No puede representar todas las combinaciones posibles de documentos relevantes una vez que la base de datos crece más allá de un tamaño crítico. Esto se deduce de los resultados en la complejidad de la comunicación y la teoría del rango de letreros.

  • Para incrustaciones de tamaño 512, la recuperación se descompone 500k documentos.
  • Para 1024 dimensiones, el límite se extiende a aproximadamente 4 millones de documentos.
  • Para 4096 dimensiones, el techo teórico es 250 millones de documentos.

Estos valores son las mejores estimaciones derivadas de Optimización de incrustación gratuitadonde los vectores se optimizan directamente contra las etiquetas de prueba. Las incrustaciones limitadas por el lenguaje del mundo real fallan incluso antes.

https://arxiv.org/pdf/2508.21038

¿Cómo el límite de referencia expone este problema?

Para probar esta limitación empíricamente, el equipo de Google Deepmind introdujo el límite (limitaciones de las integridades en la recuperación de la información), un conjunto de datos de referencia diseñado específicamente para probar los incrustadores. El límite tiene dos configuraciones:

  • Límite completo (50k documentos): En esta configuración a gran escala, incluso un fuerte colapso por debajo del 20%.
  • Límite pequeño (46 documentos): A pesar de la simplicidad de esta configuración del tamaño de un juguete, los modelos aún no logran resolver la tarea. El rendimiento varía ampliamente pero permanece lejos de ser confiable:
    • Promptriever Llama3 8B: 54.3% retiro@2 (4096d)
    • Gritlm 7b: 38.4% retirada@2 (4096d)
    • E5-Mistral 7b: 29.5% de recuerdo@2 (4096d)
    • Incruta de Géminis: 33.7% retirada@2 (3072d)

Incluso con solo 46 documentos, ningún incrustador alcanza el recuerdo completo, destacando que la limitación no es el tamaño del conjunto de datos solo, sino la arquitectura de incrustación de un solo vector.

En contraste, BM25un modelo léxico escaso clásico, no sufre este techo. Los modelos dispersos funcionan en espacios dimensionales sin dejar bien ilimitados, lo que les permite capturar combinaciones que las incrustaciones densas no pueden.

https://arxiv.org/pdf/2508.21038

¿Por qué importa esto para el trapo?

Las implementaciones de RAG de CCurrent generalmente suponen que los incrustaciones pueden escalar indefinidamente con más datos. El equipo de investigación de Google Deepmind explica cómo esta suposición es incorrecta: El tamaño de incrustación inherentemente limita la capacidad de recuperación. Esto afecta:

  • Motores de búsqueda de empresas Manejo de millones de documentos.
  • Sistemas agentes que se basan en consultas lógicas complejas.
  • Tareas de recuperación de seguimiento de instruccionesdonde las consultas definen la relevancia dinámicamente.

Incluso los puntos de referencia avanzados como MTEB no logran capturar estas limitaciones porque solo prueban una parte/sección estrecha de combinaciones de documentos de consulta.

¿Cuáles son las alternativas a las integridades de un solo vector?

El equipo de investigación sugirió que la recuperación escalable requerirá ir más allá de las integridades de un solo vector:

  • Entretenidos: Lograr el recuerdo perfecto en el límite al calificar directamente los pares de documentos de consulta, pero a costa de la latencia de alta inferencia.
  • Modelos de vectores múltiples (por ejemplo, Colbert): Ofrezca una recuperación más expresiva asignando múltiples vectores por secuencia, mejorando el rendimiento en las tareas límite.
  • Modelos dispersos (BM25, TF-IDF, Retrievers neurales de escasez): Escala mejor en la búsqueda de alta dimensión pero carece de generalización semántica.

La idea clave es que Se requiere innovación arquitectónicano simplemente incrustadores más grandes.

¿Cuál es la conclusión clave?

El análisis del equipo de investigación muestra que las incrustaciones densas, a pesar de su éxito, están obligados por un límite matemático: No pueden capturar todas las combinaciones de relevancia posibles una vez que los tamaños del corpus exceden los límites vinculados a la dimensionalidad de incrustación. El punto de referencia límite demuestra esta falla concretamente:

  • En Límite completo (50k documentos): Recuerde@100 cae por debajo del 20%.
  • En Límite pequeño (46 documentos): Incluso los mejores modelos maximizan a ~ 54% de recuperación@2.

Las técnicas clásicas como BM25, o arquitecturas más nuevas, como retrievers y codificadores transversales de múltiples vectores, siguen siendo esenciales para construir motores de recuperación confiables a escala.


Mira el Papel aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.