Mirix: un sistema de memoria modular de múltiples agentes para un razonamiento y personalización mejorado a largo plazo en agentes basados en LLM

Los desarrollos recientes en los agentes de LLM se han centrado en gran medida en mejorar las capacidades en la ejecución de tareas complejas. Sin embargo, una dimensión crítica permanece subexplorada: memoria: la capacidad de los agentes para persistir, recordar y razonar sobre la información específica del usuario a lo largo del tiempo. Sin memoria persistente, la mayoría de los agentes basados en LLM siguen siendo estatales, incapaces de construir un contexto más allá de un solo mensaje, lo que limita su utilidad en los entornos del mundo real donde la consistencia y la personalización son esenciales.

Para abordar esto, Mirix AI presenta a Mirix, un sistema modular de memoria de múltiples agentes múltiples diseñado explícitamente para permitir una memoria robusta a largo plazo para los agentes basados en LLM. A diferencia de los sistemas planos y puramente centrados en el texto, Mirix integra los tipos de memoria estructurados en las modalidades, incluidas la entrada visual, y se basa en una arquitectura coordinada de múltiples agentes para la gestión de la memoria.

Arquitectura central y composición de la memoria

Mirix presenta seis componentes de memoria especializados y compositivos, cada uno gobernado por un administrador de memoria correspondiente:

  • Memoria del núcleo: Almacena información persistente de agente y usuario, segmentado en ‘Persona’ (perfil de agente, tono y comportamiento) y ‘humano’ (hechos del usuario como nombre, preferencias y relaciones).
  • Memoria episódica: Captura eventos estampados en el tiempo e interacciones de usuario con atributos estructurados como Event_Type, Resumen, Detalles, Actores y Timestamp.
  • Memoria semántica: Codifica conceptos abstractos, gráficos de conocimiento y entidades nombradas, con entradas organizadas por tipo, resumen, detalles y fuente.
  • Memoria de procedimiento: Contiene flujos de trabajo estructurados y secuencias de tareas utilizando pasos y descripciones claramente definidos, a menudo formateados como JSON para una fácil manipulación.
  • Memoria de recursos: Mantiene referencias a documentos, imágenes y audio externos, grabados por título, resumen, tipo de recurso y contenido o enlace para la continuidad contextual.
  • Bóveda de conocimiento: Asegura hechos literales e información confidencial, como credenciales, contactos y claves API con estrictos controles de acceso y etiquetas de sensibilidad.

A Meta Memory Manager Orquestue las actividades de estos seis gerentes especializados, permitiendo el enrutamiento inteligente de mensajes, el almacenamiento jerárquico y las operaciones de recuperación específicas de la memoria. Agentes adicionales, con roles como el chat y la interfaz, colaboran dentro de esta arquitectura.

Tubería de recuperación e interacción activa

Una innovación central de Mirix es su Recuperación activa mecanismo. En la entrada del usuario, el sistema primero infiere un tema de forma autónoma, luego recupera las entradas de memoria relevantes de los seis componentes y finalmente etiqueta los datos recuperados para la inyección contextual en la solicitud de sistema resultante. Este proceso disminuye la dependencia del conocimiento del modelo paramétrico obsoleto y proporciona una respuesta de respuesta mucho más fuerte.

Múltiples estrategias de recuperación, incluida embedding_match, bm25_matchy string_match: Están disponibles, asegurando el acceso preciso y consciente del contexto a la memoria. La arquitectura permite una mayor expansión de las herramientas de recuperación según sea necesario.

Implementación y aplicación del sistema

Mirix se implementa como una aplicación asistente multiplataforma desarrollada con React-Electron (para la interfaz de usuario) y UVICORN (para la API de backend). El asistente monitorea la actividad de la pantalla capturando capturas de pantalla cada 1.5 segundos; Solo se mantienen pantallas no redundantes, y las actualizaciones de memoria se activan en lotes después de recopilar 20 capturas de pantalla únicas (aproximadamente una vez por minuto). Las cargas en la API de Gemini están transmitiendo, lo que permite un procesamiento eficiente de datos visuales y una latencia inferior a 5 segundos para actualizar la memoria de las entradas visuales.

Los usuarios interactúan a través de una interfaz de chat, que dibuja dinámicamente los componentes de memoria del agente para generar respuestas personalizadas conscientes de contexto. Los recuerdos semánticos y de procedimiento se representan como árboles o listas expandibles, proporcionando transparencia y permitiendo a los usuarios auditar e inspeccionar lo que el agente “recuerda” sobre ellos.

Evaluación en puntos de referencia multimodales y conversacionales

Mirix se valida en dos tareas rigurosas:

  1. Screenshotvqa: Un punto de referencia visual de respuesta que requiere memoria persistente a largo plazo sobre capturas de pantalla de alta resolución. Mirix supera las líneas de base de la generación de recuperación (trapo), específicamente Siglip y Géminis, por 35% en la precisión de LLM-as-a-Judgemientras reduce las necesidades de almacenamiento de recuperación por 99.9% en comparación con los métodos de texto pesado.
  2. Locomo: Un punto de referencia textual que evalúa la memoria de conversación de formato largo. Mirix logra 85.38% precisión promediosuperando los fuertes sistemas de código abierto como Langmem y MEM0 por más de 8 puntos, y acercando los límites superiores de la secuencia de contexto completo.

El diseño modular permite un alto rendimiento en los dominios de inferencia multimodal y solo de texto.

Casos de uso: wearables y el mercado de memoria

Mirix está diseñado para la extensibilidad, con soporte para dispositivos portátiles de IA livianos, incluidas las gafas y pines inteligentes, y su arquitectura eficiente y modular. La implementación híbrida permite el manejo de memoria basado en el dispositivo y la nube, mientras que las aplicaciones prácticas incluyen resumen de reuniones en tiempo real, recuerdo de ubicación y contexto granular, y modelado dinámico de hábitos de usuario.

Una característica visionaria de Mirix es la Mercado de la memoria: Un ecosistema descentralizado que permite el intercambio de memoria seguro, la monetización y la personalización de IA colaborativa entre los usuarios. El mercado está diseñado con controles de privacidad de grano fino, cifrado de extremo a extremo y almacenamiento descentralizado para garantizar la soberanía de los datos y la autopropiedad del usuario.

Conclusión

Mirix representa un paso significativo hacia los agentes basados en LLM con memoria humana. Su arquitectura compositiva estructurada de múltiples agentes permite una abstracción de memoria robusta, soporte multimodal y razonamiento contextualmente en tiempo real. Con las ganancias empíricas en puntos de referencia desafiantes y una interfaz de aplicación de plataforma cruzada accesible, Mirix establece un nuevo estándar para los sistemas de IA acuáticos de memoria.

Preguntas frecuentes

1. ¿Qué hace que Mirix sea diferente de los sistemas de memoria existentes como MEM0 o ZEP?
Mirix presenta la memoria de composición múltiple y componente (más allá del almacenamiento de pasos de texto), soporte multimodal (incluida la visión) y una arquitectura de recuperación de agentes múltiples para una gestión de memoria a largo plazo más escalable, precisa y rica en contexto.

2. ¿Cómo garantiza Mirix actualizaciones de memoria de baja latencia de las entradas visuales?
Al usar cargas de transmisión en combinación con las API de Gemini, Mirix puede actualizar la memoria visual basada en capturas de captura con una latencia de menos de 5 segundos, incluso durante las sesiones activas de usuario.

3. ¿Es Mirix compatible con LLM de código cerrado como GPT-4?
Sí. Dado que Mirix opera como un sistema externo (y no como un complemento o reentrendedor de modelo), puede aumentar cualquier LLM, independientemente de su arquitectura o licencia base, incluidos GPT-4, Gemini y otros modelos patentados.


Mira el Papel, Github y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto.

Oportunidad de patrocinio: Llegue a los desarrolladores de IA más influyentes en Estados Unidos y Europa. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. [Explore Sponsorship]


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.