Investigadores de Apple lanzan CLaRa: un marco de razonamiento latente continuo para RAG nativo de compresión con compresión de documentos semánticos de 16x a 128x

¿Cómo se pueden mantener los sistemas RAG precisos y eficientes cuando cada consulta intenta colocar miles de tokens en la ventana de contexto y el recuperador y el generador todavía están optimizados como dos sistemas separados y desconectados? Un equipo de investigadores de Apple y la Universidad de Edimburgo lanzó CLaRa, razonamiento latente continuo (CLaRa-7B-Base, CLaRa-7B-Instruct y CLaRa-7B-E2E), un marco de recuperación de generación aumentada que comprime documentos en tokens de memoria continua y luego realiza tanto la recuperación como la generación en ese espacio latente compartido. El objetivo es sencillo. Acorte el contexto, evite la doble codificación y deje que el generador le enseñe al recuperador lo que realmente importa para las respuestas posteriores.

https://arxiv.org/pdf/2511.18659

Desde documentos sin formato hasta tokens de memoria continua

CLaRa comienza con un compresor semántico que adjunta una pequeña cantidad de tokens de memoria aprendida a cada documento. Durante el preentrenamiento de compresor saliente, SCP, el modelo base es un transformador estilo Mistral 7B con adaptadores LoRA que cambian entre una función de compresor y una función de generador. Los estados ocultos de la capa final de los tokens de memoria se convierten en la representación comprimida de ese documento.

SCP está entrenado en aproximadamente 2 millones de pasajes de Wikipedia 2021. Un modelo Qwen-32B local genera 3 señales de supervisión para cada pasaje. Los pares de control de calidad simples cubren hechos atómicos. Los pares complejos de control de calidad conectan varios hechos en una pregunta para aplicar el razonamiento de múltiples saltos. Las paráfrasis reordenan y comprimen el texto preservando la semántica. Un circuito de verificación verifica la coherencia y la cobertura de los hechos y puede regenerar las preguntas faltantes o parafrasearlas durante hasta 10 rondas antes de aceptar una muestra.

El entrenamiento utiliza 2 pérdidas. Un término de entropía cruzada entrena al generador para responder preguntas o producir paráfrasis condicionadas únicamente a las fichas de memoria y un prefijo de instrucción. Un término de error cuadrático medio alinea el estado oculto promedio de los tokens de documentos con el estado oculto promedio de los tokens de memoria. La pérdida de MSE proporciona ganancias modestas pero consistentes de aproximadamente 0,3 a 0,6 puntos F1 en relaciones de compresión 32 y 128 y mantiene las representaciones comprimidas y originales en la misma región semántica.

https://arxiv.org/pdf/2511.18659

Recuperación y generación conjunta en un espacio compartido.

Después de la compresión fuera de línea, cada documento está representado únicamente por sus tokens de memoria. Luego, CLaRa entrena un razonador de consultas y un generador de respuestas sobre la misma columna vertebral. El razonador de consultas es otro adaptador LoRA que asigna una pregunta de entrada a la misma cantidad de tokens de memoria utilizados para los documentos. La recuperación se convierte en pura búsqueda de incrustación. El sistema calcula la similitud del coseno entre la incrustación de la consulta y la incrustación de cada documento candidato.

Las mejores incrustaciones de documentos comprimidos para una consulta se concatenan con los tokens de consulta y se introducen en el adaptador del generador. El entrenamiento utiliza solo una pérdida estándar de predicción del siguiente token en la respuesta final. No hay etiquetas de relevancia explícitas. El truco clave es un selector k superior diferenciable implementado con un estimador Directo. Durante el pase hacia adelante, el modelo utiliza la selección k del techo rígido. Durante el paso hacia atrás, una distribución softmax sobre las puntuaciones de los documentos permite que los gradientes del generador fluyan hacia los parámetros del razonador de consultas.

El equipo de investigación muestra 2 efectos en el análisis de gradiente. En primer lugar, se anima al recuperador a asignar mayor probabilidad a los documentos que aumentan la probabilidad de respuesta. En segundo lugar, debido a que la recuperación y la generación comparten las mismas representaciones comprimidas, los gradientes del generador remodelan el espacio del documento latente para que sea más fácil razonar. El análisis con lente Logit de las incrustaciones de consultas recupera tokens de temas como “NFL” y “Oklahoma” para una pregunta sobre el sobrino de Ivory Lee Brown, aunque esos tokens no están en la consulta sin procesar pero sí en los artículos de respaldo.

https://arxiv.org/pdf/2511.18659

Calidad de compresión y precisión de control de calidad

El compresor se evalúa en 4 conjuntos de datos de control de calidad: Natural Question, HotpotQA, MuSiQue y 2WikiMultihopQA. En la configuración Normal, donde el sistema recupera los 5 principales documentos de Wikipedia de 2021 por consulta, SCP-Mistral-7B con 4 veces de compresión alcanza un F1 promedio de 39,86. Esto es 5,37 puntos mejor que la base de compresión dura LLMLingua 2 y 1,13 puntos mejor que la mejor base de compresión suave PISCO.

Bajo la configuración de Oracle, donde se garantiza que el documento de oro estará en el conjunto candidato, SCP-Mistral-7B con 4 veces de compresión alcanza un F1 promedio de 66,76. Es decir, 17,31 puntos por encima de LLMLingua-2 y 5,35 puntos por encima de PISCO. Aún más interesante, las representaciones comprimidas superan a un recuperador de texto basado en BGE más un generador de documentos completos Mistral-7B en aproximadamente 2,36 puntos F1 promedio para Mistral y aproximadamente 6,36 puntos para Phi 4 mini. La compresión suave bien entrenada puede exceder el RAG de texto completo y al mismo tiempo reducir la longitud del contexto en factores de 4 a 128.

https://arxiv.org/pdf/2511.18659

El rendimiento con relaciones de compresión muy altas, superiores a 32 en Oracle, disminuye, pero la disminución sigue siendo moderada en condiciones de recuperación normales. La explicación clave según el equipo de investigación es que la poca relevancia de los documentos obstaculiza el sistema antes que la calidad de la compresión.

Comportamiento de recuperación y control de calidad de extremo a extremo

Para el control de calidad de extremo a extremo, CLaRa utiliza 20 documentos candidatos por consulta con índices de compresión de 4, 16 y 32. En la configuración Normal, CLaRa-Mistral-7B con pesos inicializados de instrucción y 16 veces la compresión alcanza F1 igual a 50,89 en preguntas naturales y 44,66 en 2WikiMultihopQA. Esto es comparable a DRO-Mistral-7B, que lee texto completo sin comprimir, mientras utiliza representaciones de documentos 16 veces más cortas. En algunos conjuntos de datos, CLaRa con 16 veces de compresión mejora ligeramente F1 sobre DRO, por ejemplo de 43,65 a 47,18 en 2Wiki.

En la configuración de Oracle, CLaRa-Mistral-7B supera 75, F1 tanto en Preguntas Naturales como en HotpotQA con una compresión 4 veces mayor. Esto muestra que el generador puede aprovechar al máximo la recuperación precisa incluso cuando toda la evidencia se almacena únicamente en tokens de memoria comprimidos. La instrucción CLaRa inicializada generalmente gana a la CLaRa inicializada previamente al entrenamiento en la configuración Normal, mientras que la brecha se reduce en Oracle, donde el ruido de recuperación es limitado.

En el lado de la recuperación, CLaRa utilizado como reranker bajo condiciones de Oracle ofrece un fuerte Recall en 5. Con una inicialización previa al entrenamiento en compresión 4 en HotpotQA, CLaRa-Mistral-7B alcanza un Recall en 5 igual a 96,21. Esto supera la línea de base supervisada de BGE Reranker en 85,93 por 10,28 puntos e incluso supera a un retriever Sup Instruct totalmente supervisado y entrenado con etiquetas de relevancia contrastantes.

https://arxiv.org/pdf/2511.18659

¿Qué ha lanzado Apple?

El equipo de investigación de Apple lanzó 3 modelos en Hugging Face: CLaRa-7B-Base, CLaRa-7B-Instruct y CLaRa-7B-E2E. CLaRa-7B-Instruct se describe como un modelo RAG unificado sintonizado con instrucciones con compresión de documentos incorporada a 16 y 128 veces. Responde preguntas sobre estilo de instrucción directamente desde representaciones comprimidas y utiliza Mistral-7B-Instruct v0.2 como modelo base.

Conclusiones clave

CLaRa reemplaza los documentos sin procesar con un pequeño conjunto de tokens de memoria continuos aprendidos mediante compresión semántica guiada por control de calidad y guiada por paráfrasis, que preserva las señales de razonamiento clave incluso con una compresión de 16 y 128 veces. La recuperación y la generación se entrenan en un único espacio latente compartido, el codificador y el generador de consultas comparten las mismas representaciones comprimidas y se optimizan junto con una pérdida de modelado de lenguaje. Un estimador top-k diferenciable permite que los gradientes fluyan desde los tokens de respuesta al recuperador, lo que alinea la relevancia del documento con la calidad de la respuesta y elimina el bucle de ajuste inconexo habitual para los sistemas RAG. En puntos de referencia de control de calidad de múltiples saltos como Natural Question, HotpotQA, MuSiQue y 2WikiMultihopQA, el compresor SCP de CLaRa con 4 veces de compresión supera las sólidas líneas de base basadas en texto como LLMLingua 2 y PISCO e incluso puede superar los canales de texto completo BGE/Mistral en promedio F1. Apple ha lanzado 3 modelos prácticos, CLaRa-7B-Base, CLaRa-7B-Instruct y CLaRa-7B-E2E, junto con el proceso de formación completo en GitHub.

Notas editoriales

CLaRa es un paso importante para la generación aumentada de recuperación porque trata la compresión semántica de documentos y la optimización conjunta en un espacio continuo compartido como ciudadanos de primera clase, no como ideas tardías atornilladas a un canal de solo texto. Muestra que la compresión basada en incrustaciones con SCP, combinada con el entrenamiento de extremo a extremo a través de un estimador top-k diferenciable y una pérdida de modelado de un solo lenguaje, puede igualar o superar las líneas base de RAG basadas en texto mientras se utilizan contextos mucho más cortos y pilas de recuperación más simples. En general, CLaRa demuestra que el razonamiento latente continuo unificado es una alternativa creíble al clásico fragmento y recuperación de RAG para cargas de trabajo de control de calidad del mundo real.

Consulte el papel, los pesos de los modelos en HF y Repo. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.