Cache-to-Cache (C2C): comunicación semántica directa entre modelos de lenguajes grandes a través de KV-Cache Fusion

¿Pueden los modelos de lenguaje grandes colaborar sin enviar un solo fragmento de texto? Un equipo de investigadores de la Universidad de Tsinghua, Infinigence AI, la Universidad China de Hong Kong, el Laboratorio de IA de Shanghai y la Universidad Jiao Tong de Shanghai dicen que sí. Cache-to-Cache (C2C) es un nuevo paradigma de comunicación en el que grandes modelos de lenguaje intercambian información a través de su KV-Cache en lugar de a través del texto generado.

https://arxiv.org/pdf/2510.03215

La comunicación de texto es el cuello de botella en los sistemas múltiples LLM

Los sistemas actuales de múltiples LLM utilizan principalmente texto para comunicarse. Un modelo escribe una explicación, otro modelo la lee como contexto.

Este diseño tiene tres costos prácticos:

Las activaciones internas se comprimen en mensajes cortos en lenguaje natural. Gran parte de la señal semántica en KV-Cache nunca cruza la interfaz. El lenguaje natural es ambiguo. Incluso con protocolos estructurados, un modelo de codificador puede codificar señales estructurales, como la función de una etiqueta HTML, que no sobreviven a una descripción textual vaga. Cada paso de la comunicación requiere una decodificación token por token, lo que domina la latencia en intercambios analíticos prolongados.

El trabajo de C2C plantea una pregunta directa: ¿podemos tratar a KV-Cache como el canal de comunicación?

Experimentos de Oracle, ¿puede KV-Cache transportar comunicación?

El equipo de investigación primero realizó dos experimentos estilo Oracle para probar si KV-Cache es un medio útil.

Oráculo de enriquecimiento de caché

Comparan tres configuraciones en puntos de referencia de opción múltiple:

Directo, complete previamente la pregunta únicamente. Pocas tomas, precompletar ejemplos más pregunta, caché más largo. Oracle, complete previamente los ejemplos más la pregunta, luego descarte el segmento de ejemplo y mantenga solo el segmento de la caché alineado con la pregunta, de modo que la longitud de la caché sea la misma que Direct.

https://arxiv.org/pdf/2510.03215

Oracle mejora la precisión del 58,42 por ciento al 62,34 por ciento con la misma longitud de caché, mientras que Few Shot alcanza el 63,39 por ciento. Esto demuestra que enriquecer la pregunta KV-Cache en sí, incluso sin más tokens, mejora el rendimiento. El análisis de capas muestra que enriquecer solo las capas seleccionadas es mejor que enriquecer todas las capas, lo que luego motiva un mecanismo de activación.

Oráculo de transformación de caché

A continuación, prueban si KV-Cache de un modelo se puede transformar en el espacio de otro modelo. Se entrena un MLP de tres capas para asignar KV-Cache desde Qwen3 4B a Qwen3 0.6B. Los gráficos SNE muestran que el caché transformado se encuentra dentro del colector de caché de destino, pero solo en una subregión.

https://arxiv.org/pdf/2510.03215

C2C, comunicación semántica directa a través de KV-Cache

Con base en estos oráculos, el equipo de investigación define la comunicación caché a caché entre un modelo compartidor y receptor.

Durante el llenado previo, ambos modelos leen la misma entrada y producen KV-Cache por capas. Para cada capa de Receptor, C2C selecciona una capa de Compartidor asignada y aplica un Fusor C2C para producir una caché fusionada. Durante la decodificación, el receptor predice tokens condicionados a este caché fusionado en lugar de su caché original.

El C2C Fuser sigue un principio de integración residual y tiene tres módulos:

El módulo de proyección concatena los vectores KV-Cache del compartidor y del receptor, aplica una capa de proyección y luego una capa de fusión de características. El módulo de ponderación dinámica modula los cabezales según la entrada, de modo que algunos cabezales de atención dependen más de la información del participante. La puerta de aprendizaje agrega una puerta por capa que decide si se inyecta el contexto Sharer en esa capa. La puerta utiliza un sigmoide de Gumbel durante el entrenamiento y se vuelve binaria en la inferencia.

El compartidor y el receptor pueden provenir de diferentes familias y tamaños, por lo que C2C también define:

Alineación de tokens decodificando tokens de Receiver en cadenas y recodificandolos con el tokenizador de Sharer, luego eligiendo tokens de Sharer con la máxima cobertura de cadenas. Alineación de capas utilizando una estrategia terminal que empareja las capas superiores primero y camina hacia atrás hasta que el modelo menos profundo esté completamente cubierto.

https://arxiv.org/pdf/2510.03215

Durante la formación, ambos LLM se congelan. Solo se entrena el módulo C2C, utilizando una pérdida de predicción del siguiente token en las salidas del receptor. Los principales fusores de C2C se entrenan con las primeras 500.000 muestras del conjunto de datos OpenHermes2.5 y se evalúan en OpenBookQA, ARC Challenge, MMLU Redux y C Eval.

Precisión y latencia, comunicación C2C versus comunicación de texto

En muchas combinaciones de Sharer Receiver creadas a partir de Qwen2.5, Qwen3, Llama3.2 y Gemma3, C2C mejora constantemente la precisión del receptor y reduce la latencia. Para resultados:

C2C logra una precisión promedio entre un 8,5 y un 10,5 por ciento mayor que los modelos individuales. C2C supera a la comunicación de texto entre un 3,0 y un 5,0 por ciento en promedio. C2C ofrece aproximadamente el doble de velocidad promedio en latencia en comparación con la colaboración basada en texto y, en algunas configuraciones, la velocidad es mayor.

Un ejemplo concreto utiliza Qwen3 0.6B como receptor y Qwen2.5 0.5B como compartidor. En MMLU Redux, el receptor por sí solo alcanza el 35,53 por ciento, el texto a texto alcanza el 41,03 por ciento y el C2C alcanza el 42,92 por ciento. El tiempo promedio por consulta de texto a texto es de 1,52 unidades, mientras que C2C se mantiene cerca del modelo único en 0,40. Aparecen patrones similares en OpenBookQA, ARC Challenge y C Eval.

En LongBenchV1, con el mismo par, C2C supera la comunicación de texto en todos los segmentos de longitud de secuencia. Para secuencias de 0 a 4k tokens, la comunicación de texto alcanza 29,47 mientras que C2C alcanza 36,64. Las ganancias se mantienen para 4k a 8k y para contextos más largos.

https://arxiv.org/pdf/2510.03215

Conclusiones clave

La comunicación caché a caché permite que un modelo compartido envíe información a un modelo receptor directamente a través de KV-Cache, por lo que la colaboración no necesita mensajes de texto intermedios, lo que elimina el cuello de botella del token y reduce la pérdida semántica en sistemas multimodelo. Dos estudios de Oracle muestran que enriquecer solo la porción del caché alineada con la pregunta mejora la precisión con una longitud de secuencia constante, y que KV-Cache de un modelo más grande se puede mapear en el espacio de caché de un modelo más pequeño a través de un proyector aprendido, lo que confirma que el caché es un medio de comunicación viable. La arquitectura C2C Fuser combina cachés de Sharer y Receiver con un módulo de proyección, ponderación de cabeza dinámica y una puerta de aprendizaje por capa, e integra todo de forma residual, lo que permite que Receiver absorba selectivamente la semántica de Sharer sin desestabilizar su propia representación. Se observan ganancias consistentes en precisión y latencia en los pares de modelos Qwen2.5, Qwen3, Llama3.2 y Gemma3, con una mejora promedio de precisión de alrededor del 8,5 al 10,5 por ciento en comparación con un solo modelo, ganancias del 3 al 5 por ciento en la comunicación de texto a texto y respuestas aproximadamente 2 veces más rápidas porque se elimina la decodificación innecesaria.

Cache-to-Cache replantea la comunicación multiLLM como un problema de transferencia semántica directa, no como un problema de ingeniería inmediata. Al proyectar y fusionar KV-Cache entre Sharer y Receiver con un fusor neuronal y una puerta de aprendizaje, C2C utiliza la semántica profunda y especializada de ambos modelos y al mismo tiempo evita la generación de texto intermedio explícito, que es un cuello de botella de información y un costo de latencia. Con una precisión entre un 8,5 y un 10,5 por ciento mayor y una latencia aproximadamente 2 veces menor que la comunicación de texto, C2C es un fuerte paso a nivel de sistemas hacia la colaboración nativa KV entre modelos.

Consulte el documento y los códigos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.