MetaEmbed de Meta Superintelligence Labs replantea las incorporaciones multimodales y permite escalar en el tiempo de prueba con interacción tardía flexible

¿Qué pasaría si pudiera ajustar la recuperación multimodal en el momento del servicio (precisión comercial, latencia y tamaño del índice) simplemente eligiendo cuántos Meta Tokens aprendibles (por ejemplo, 1→16 para consultas, 1→64 para candidatos) usar? Meta Superintelligence Labs presenta MetaEmbed, una receta de interacción tardía para la recuperación multimodal que expone una única superficie de control en el momento de la entrega: cuántos “Meta Tokens” compactos usar en los lados de la consulta y el candidato. En lugar de colapsar cada elemento en un vector (estilo CLIP) o explotar en cientos de vectores de parche/token (estilo ColBERT), MetaEmbed agrega un conjunto fijo y aprendible de Meta Tokens en el entrenamiento y reutiliza sus estados ocultos finales como incrustaciones de múltiples vectores en la inferencia. El enfoque permite escalar el tiempo de prueba: los operadores pueden intercambiar precisión por latencia y tamaño del índice seleccionando un presupuesto de recuperación sin volver a capacitarse.

https://arxiv.org/pdf/2509.18095

¿Cómo funciona MetaEmbed?

El sistema se entrena con Matryoshka Multi-Vector Retrieval (MMR): los metatokens se organizan en grupos anidados de prefijos, por lo que cada prefijo es discriminativo de forma independiente. Por inferencia, el presupuesto de recuperación es una tupla ((r_q, r_c)) que especifica cuántos Meta Tokens del lado de la consulta y del lado del candidato se usarán (por ejemplo, ((1,1), (2,4), (4,8), (8,16), (16,64))). La puntuación utiliza una interacción tardía MaxSim similar a ColBERT sobre incrustaciones de Meta Token normalizadas L2, preservando detalles intermodales detallados y manteniendo el conjunto de vectores pequeño.

Puntos de referencia

MetaEmbed se evalúa en MMEB (Massive Multimodal Embedding Benchmark) y ViDoRe v2 (Visual Document Retrieval), ambos diseñados para enfatizar la recuperación bajo diversas modalidades y consultas de documentos más realistas. En MMEB, MetaEmbed con backbones Qwen2.5-VL informa puntuaciones generales con el presupuesto más alto ((16,64)): 3B = 69,1, 7B = 76,6, 32B = 78,7. Las ganancias son monótonas a medida que el presupuesto aumenta y se amplía con la escala del modelo. En ViDoRe v2, el método mejora el nDCG@5 promedio en comparación con un vector único y una línea base ingenua de múltiples vectores de longitud fija bajo un entrenamiento idéntico, y la brecha crece con presupuestos más altos.

https://arxiv.org/pdf/2509.18095

Las ablaciones confirman que MMR ofrece la propiedad de escalamiento en el momento de la prueba sin sacrificar la calidad del presupuesto total. Cuando MMR está deshabilitado (NoMMR), el rendimiento con presupuestos bajos colapsa; Con MMR habilitado, MetaEmbed rastrea o supera las líneas base de un solo vector en todos los presupuestos y tamaños de modelos.

Eficiencia y memoria

Con 100.000 candidatos por consulta y un tamaño de lote de puntuación de 1000, la investigación informa el costo de puntuación y la memoria de índice en un A100. A medida que el presupuesto crece de ((1,1)) a ((16,64)), los FLOP de puntuación aumentan de 0,71 GFLOP → 733,89 GFLOP, la latencia de puntuación de 1,67 ms → 6,25 ms y la memoria de índice bfloat16 de 0,68 GiB → 42,72 GiB. Fundamentalmente, la codificación de consultas domina la latencia de un extremo a otro: codificar una consulta de imagen con 1024 tokens es 42,72 TFLOP y 788 ms, varios órdenes mayor que la puntuación para conjuntos de candidatos pequeños. Por lo tanto, los operadores deben centrarse en el rendimiento del codificador y gestionar el crecimiento del índice eligiendo presupuestos equilibrados o descargando índices a la CPU cuando sea necesario.

¿Cómo se compara?

Vector único (estilo CLIP): índice mínimo y puntuación rápida de productos escalables, pero sensibilidad de instrucción y detalle de composición limitados; MetaEmbed mejora la precisión mediante el uso de un pequeño conjunto de múltiples vectores contextuales al tiempo que conserva la codificación independiente. Multivector ingenuo (estilo ColBERT) en multimodal↔multimodal: rico detalle a nivel de token pero tamaño de índice y cálculo prohibitivos cuando ambos lados incluyen imágenes; Los pocos Meta Tokens de MetaEmbed reducen los vectores en órdenes de magnitud y permiten MaxSim presupuestado.

Comidas para llevar

Un modelo, muchos presupuestos. Entrena una vez; elija ((r_q, r_c)) en el momento del servicio para retirar el producto versus costo. Los presupuestos bajos son adecuados para la recuperación inicial; Se pueden reservar presupuestos elevados para reclasificar las etapas. El codificador es el cuello de botella. Optimice la tokenización de imágenes y el rendimiento de VLM; La puntuación sigue siendo ligera para los tamaños típicos de conjuntos de candidatos. La memoria escala linealmente con el presupuesto. Planifique la ubicación del índice y la fragmentación (GPU frente a CPU) alrededor del elegido ((r_q, r_c)).

Notas editoriales

MetaEmbed aporta una superficie de control del tiempo de entrega para la recuperación multimodal: los Meta Tokens anidados, de grueso a fino, entrenados con MMR producen incrustaciones compactas de múltiples vectores cuya granularidad se puede ajustar después del entrenamiento. Los resultados muestran mejoras consistentes en la precisión sobre las líneas base de un solo vector y de múltiples vectores en MMEB y ViDoRe v2, al tiempo que aclaran el perfil de costos práctico: latencia vinculada al codificador, tamaño del índice dependiente del presupuesto y puntuación a escala de milisegundos en aceleradores de productos básicos. Para los equipos que crean pilas de recuperación que deben unificar la recuperación rápida y la reclasificación precisa en escenarios de imágenes, texto y documentos visuales, la receta se puede aplicar directamente sin reescrituras arquitectónicas.

Consulte el DOCUMENTO aquí. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.