Los modelos de lenguaje grande pueden generar respuestas fluidas, emular tono e incluso seguir instrucciones complejas; Sin embargo, luchan por retener información en múltiples sesiones. Esta limitación se vuelve más apremiante a medida que los LLM se integran en aplicaciones que requieren una participación a largo plazo, como asistencia personal, gestión de la salud y tutoría. En las conversaciones de la vida real, las personas recuerdan las preferencias, infieren comportamientos y construyen mapas mentales con el tiempo. Una persona que mencionó sus restricciones dietéticas la semana pasada espera que se tengan en cuenta la próxima vez que se discute la comida. Sin mecanismos para almacenar y recuperar dichos detalles en las conversaciones, los agentes de IA no ofrecen consistencia y confiabilidad, socavando la confianza del usuario.
El desafío central con las LLM de hoy radica en su incapacidad para persistir información relevante más allá de los límites de la ventana de contexto de una conversación. Estos modelos se basan en tokens limitados, a veces tan alto como 128k o 200k, pero cuando las interacciones largas abarcan días o semanas, incluso estas ventanas expandidas se quedan cortas. Más críticamente, la calidad de la atención se degrada sobre los tokens distantes, lo que dificulta que los modelos se ubiquen o utilicen el contexto anterior de manera efectiva. Un usuario puede presentar datos personales, cambiar a un tema completamente diferente y volver al tema original mucho más tarde. Sin un sistema de memoria robusto, la IA probablemente ignorará los hechos mencionados anteriormente. Esto crea fricción, especialmente en escenarios donde la continuidad es crucial. El problema no es solo olvidar la información, sino también recuperar la información incorrecta de partes irrelevantes del historial de conversación debido al desbordamiento del token y la deriva temática.
Se han hecho varios intentos para abordar esta brecha de memoria. Algunos sistemas dependen de la generación de recuperación aumentada (TRAPO) Técnicas, que utilizan búsquedas de similitud para recuperar fragmentos de texto relevantes durante una conversación. Otros emplean enfoques de contexto completo que simplemente realizan toda la conversación en el modelo, lo que aumenta los costos de latencia y token. Las soluciones de memoria patentadas y las alternativas de código abierto intentan mejorarlas al almacenar intercambios pasados en bases de datos vectoriales o formatos estructurados. Sin embargo, estos métodos a menudo conducen a ineficiencias, como recuperar información irrelevante excesiva o no consolidar actualizaciones de manera significativa. También carecen de mecanismos efectivos para detectar datos conflictivos o priorizar actualizaciones más nuevas, lo que lleva a recuerdos fragmentados que obstaculizan un razonamiento confiable.
Un equipo de investigación de MEM0.Ai desarrolló un nuevo sistema centrado en la memoria llamado MEM0. Esta arquitectura introduce un mecanismo dinámico para extraer, consolidar y recuperar información de las conversaciones a medida que ocurren. El diseño permite al sistema identificar selectivamente hechos útiles de las interacciones, evaluar su relevancia y singularidad e integrarlos en una tienda de memoria que pueda consultar en futuras sesiones. Los investigadores también propusieron una versión mejorada por los gráficos, MEM0G, que se basa en el sistema base al estructurar información en formatos relacionales. Estos modelos se probaron utilizando el punto de referencia Locomo y se compararon con otras seis categorías de sistemas habilitados para la memoria, incluidos los agentes acuáticos de memoria, métodos RAG con diferentes configuraciones, enfoques de contexto completo y herramientas de código abierto y propietarios. MEM0 logró constantemente un rendimiento superior en todas las métricas.
El núcleo del sistema MEM0 implica dos etapas operativas. En la primera fase, el modelo procesa pares de mensajes, típicamente la pregunta de un usuario y la respuesta del asistente, junto con resúmenes de conversaciones recientes. Una combinación de resúmenes de conversación global y los últimos 10 mensajes sirve como entrada para un modelo de idioma que extrae hechos sobresalientes. Estos hechos se analizan luego en la segunda fase, donde se comparan con recuerdos existentes similares en una base de datos de vectores. Se recuperan los 10 recuerdos más similares, y un mecanismo de decisión, denominado “llamada de herramienta”, determina si el hecho debe agregarse, actualizarse, eliminar o ignorar. Estas decisiones son tomadas por la propia LLM en lugar de un clasificador, racionalizando la gestión de la memoria y evitando redundancias.
La variante avanzada, MEM0G, lleva la representación de la memoria un paso más allá. Traduce el contenido de la conversación en un formato de gráfico estructurado, donde las entidades, como las personas, las ciudades o las preferencias, se convierten en nodos y relaciones, como “vidas en” o “prefieren”, se convierten en bordes. Cada entidad está etiquetada, incrustada y traficada, mientras que las relaciones forman trillizos que capturan la estructura semántica del diálogo. Este formato admite un razonamiento más complejo entre los hechos interconectados, lo que permite que el modelo rastree las rutas relacionales entre las sesiones. El proceso de conversión utiliza LLM para identificar entidades, clasificarlas y construir el gráfico de forma incremental. Por ejemplo, si un usuario discute los planes de viaje, el sistema crea nodos para ciudades, fechas y compañeros, creando así una estructura detallada y navegable de la conversación.
Las métricas de rendimiento informadas por el equipo de investigación subrayan la fuerza de ambos modelos. MEM0 mostró una mejora del 26% sobre el sistema de OpenAI cuando se evalúa utilizando la métrica “LLM-AS-A-A-Judge”. MEM0G, con su diseño mejorado con gráficos, logró una ganancia adicional del 2%, lo que llevó la mejora total al 28%. En términos de eficiencia, MEM0 demostró una latencia P95 91% menor que los métodos de contexto completo, y más del 90% de ahorro en el costo de token. Este equilibrio entre el rendimiento y la practicidad es significativo para los casos de uso de producción, donde los tiempos de respuesta y los gastos computacionales son críticos. Los modelos también manejaron una amplia gama de tipos de preguntas, desde búsquedas objetivas de un solo salto hasta consultas de dominios múltiples y de dominio abiertos, superando a todos los demás enfoques en precisión en todas las categorías.
Varias conclusiones clave de la investigación en MEM0 incluyen:
- MEM0 utiliza un proceso de dos pasos para extraer y administrar hechos de conversación sobresalientes, combinando mensajes recientes y resúmenes globales para formar un aviso contextual.
- MEM0G construye la memoria como un gráfico dirigido de entidades y relaciones, que ofrece un razonamiento superior sobre cadenas de información complejas.
- MEM0 superó el sistema de memoria de OpenAI con una mejora del 26% en LLM-as-a-Judge, mientras que MEM0G agregó una ganancia adicional del 2%, logrando el 28% en general.
- MEM0 logró una reducción del 91% en la latencia de P95 y ahorró más del 90% en el uso de tokens en comparación con los enfoques de contexto completo.
- Estas arquitecturas mantienen un rendimiento rápido y rentable incluso cuando se manejan diálogos de múltiples sesiones, lo que los hace adecuados para la implementación en la configuración de producción.
- El sistema es ideal para asistentes de IA en tutoría, atención médica y entornos empresariales donde la continuidad de la memoria es esencial.
Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.