En el contexto de los modelos de lenguaje y la IA con agentes, la memoria y la fundamentación son campos de investigación de gran interés y en auge. Y, aunque suelen colocarse muy cerca en una oración y suelen estar relacionados, en la práctica cumplen funciones diferentes. En este artículo, espero aclarar la confusión en torno a estos dos términos y demostrar cómo la memoria puede desempeñar un papel en la fundamentación general de un modelo.
En mi último artículo, discutimos el El papel importante de la memoria en la IA AgenticLa memoria en los modelos de lenguaje se refiere a la capacidad de los sistemas de IA de retener y recordar información pertinente, lo que contribuye a su capacidad de razonar y aprender continuamente de sus experiencias. La memoria se puede dividir en cuatro categorías: memoria a corto plazo, memoria a corto plazo y largo plazo, memoria a largo plazo y memoria de trabajo.
Suena complejo, pero vamos a explicarlo de forma sencilla:
Memoria a corto plazo (MCP):
El STM retiene la información durante un período muy breve, que puede ser de segundos a minutos. Si le haces una pregunta a un modelo de lenguaje, este necesita retener tus mensajes durante el tiempo suficiente para generar una respuesta a tu pregunta. Al igual que las personas, los modelos de lenguaje tienen dificultades para recordar demasiadas cosas a la vez.
Ley de Millerafirma que “la memoria a corto plazo es un componente de la memoria que conserva una pequeña cantidad de información en un estado activo y fácilmente disponible durante un breve período, normalmente de unos pocos segundos a un minuto. La duración de la memoria a corto plazo parece ser de entre 15 y 30 segundos, y su capacidad es limitada; a menudo se piensa que es de unos 7 ± 2 elementos”.
Entonces, si le preguntas a un modelo de lenguaje “¿de qué género es el libro que mencioné en mi mensaje anterior?”, necesita usar su memoria de corto plazo para hacer referencia a mensajes recientes y generar una respuesta relevante.
Implementación:
El contexto se almacena en sistemas externos, como variables de sesión o bases de datos, que contienen una parte del historial de conversaciones. Cada nueva entrada del usuario y respuesta del asistente se agrega al contexto existente para crear el historial de conversaciones. Durante la inferencia, el contexto se envía junto con la nueva consulta del usuario al modelo de lenguaje para generar una respuesta que tenga en cuenta toda la conversación. trabajo de investigación ofrece una visión más profunda de los mecanismos que posibilitan la memoria a corto plazo.
Memoria a corto y largo plazo (SLTM):
SLTM retiene la información durante un período moderado, que puede ser de minutos a horas. Por ejemplo, dentro de la misma sesión, puede retomar una conversación donde la dejó sin tener que repetir el contexto porque se ha almacenado como SLTM. Este proceso también es externo y no forma parte del modelo del lenguaje en sí.
Implementación:
Las sesiones se pueden gestionar mediante identificadores que vinculan las interacciones de los usuarios a lo largo del tiempo. Los datos de contexto se almacenan de forma que puedan persistir en las interacciones de los usuarios dentro de un período definido, como una base de datos. Cuando un usuario reanuda una conversación, el sistema puede recuperar el historial de conversaciones de sesiones anteriores y pasarlo al modelo de lenguaje durante la inferencia. De forma muy similar a la memoria de corto plazo, cada nueva entrada de usuario y respuesta del asistente se adjunta al contexto existente para mantener actualizado el historial de conversaciones.
Memoria a largo plazo (MLP):
LTM retiene información durante un período de tiempo definido por el administrador, que podría ser indefinido. Por ejemplo, si tuviéramos que crear un tutor de IA, sería importante que el modelo de lenguaje comprendiera en qué materias se desempeña bien el estudiante, en cuáles aún tiene dificultades, qué estilos de aprendizaje funcionan mejor para él y más. De esta manera, el modelo puede recordar información relevante para fundamentar sus planes de enseñanza futuros. Ardilla IA es un ejemplo de una plataforma que utiliza la memoria a largo plazo para “diseñar rutas de aprendizaje personalizadas, realizar una enseñanza específica y brindar intervención emocional cuando es necesario”.
Implementación:
La información se puede almacenar en bases de datos estructuradas, gráficos de conocimiento o almacenes de documentos que se consultan según sea necesario. La información relevante se recupera en función de la interacción actual del usuario y su historial anterior. Esto proporciona contexto para el modelo de lenguaje que se devuelve con la respuesta del usuario o el mensaje del sistema.
Memoria de trabajo:
La memoria de trabajo es un componente del modelo de lenguaje en sí (a diferencia de los otros tipos de memoria que son procesos externos). Permite que el modelo de lenguaje conserve información, la manipule y la refine, mejorando así su capacidad de razonamiento. Esto es importante porque, a medida que el modelo procesa la petición del usuario, su comprensión de la tarea y de los pasos que debe dar para ejecutarla puede cambiar. Puede pensar en la memoria de trabajo como el bloc de notas del modelo para sus pensamientos. Por ejemplo, cuando se le presenta un problema matemático de varios pasos como (5 + 3) * 2, el modelo de lenguaje necesita la capacidad de calcular (5 + 3) entre paréntesis y almacenar esa información antes de sumar los dos números y multiplicarlos por 2. Si le interesa profundizar en este tema, consulte el papel “TransformerFAM: La atención de retroalimentación es memoria de trabajo” ofrece un nuevo enfoque para ampliar la memoria de trabajo y permitir que un modelo de lenguaje procese entradas/ventanas de contexto de longitud ilimitada.
Implementación:
Los mecanismos como las capas de atención en los transformadores o los estados ocultos en las redes neuronales recurrentes (RNN) son responsables de mantener los cálculos intermedios y brindan la capacidad de manipular los resultados intermedios dentro de la misma sesión de inferencia. A medida que el modelo procesa la entrada, actualiza su estado interno, lo que permite capacidades de razonamiento más sólidas.
Los cuatro tipos de memoria son componentes importantes para crear un sistema de IA que pueda gestionar y utilizar información de manera eficaz en distintos períodos de tiempo y contextos.
La respuesta de un modelo de lenguaje siempre debe tener sentido en el contexto de la conversación; no debe ser simplemente un montón de declaraciones fácticas.La fundamentación mide la capacidad de un modelo para producir un resultado que sea contextualmente relevante y significativo. El proceso de fundamentación de un modelo lingüístico puede ser una combinación de entrenamiento del modelo lingüístico, ajuste y procesos externos (¡incluida la memoria!).
Entrenamiento y ajuste fino del modelo de lenguaje
Los datos con los que se entrena inicialmente el modelo marcarán una diferencia sustancial en la solidez del mismo. Entrenar un modelo con un gran corpus de datos diversos le permite aprender patrones lingüísticos, gramática y semántica para predecir la siguiente palabra más relevante. Luego, el modelo entrenado previamente se ajusta con datos específicos del dominio, lo que lo ayuda a generar resultados más relevantes y precisos para aplicaciones particulares que requieren un conocimiento más profundo del dominio específico. Esto es especialmente importante si necesita que el modelo tenga un buen desempeño en textos específicos a los que podría no haber estado expuesto durante su entrenamiento inicial. Aunque nuestras expectativas sobre las capacidades de un modelo lingüístico son altas, no podemos esperar que tenga un buen desempeño en algo que nunca ha visto antes. Del mismo modo que no esperaríamos que un estudiante tuviera un buen desempeño en un examen si no hubiera estudiado el material.
Contexto externo
Proporcionar al modelo información en tiempo real o actualizada y específica del contexto también ayuda a que se mantenga firme. Existen muchos métodos para hacerlo, como integrarlo con bases de conocimiento externas, API y datos en tiempo real. Este método también se conoce como Generación Aumentada de Recuperación (RAG).
Sistemas de memoria
Los sistemas de memoria en la IA desempeñan un papel crucial para garantizar que el sistema se mantenga firme en función de las acciones que haya realizado anteriormente, las lecciones aprendidas, el rendimiento a lo largo del tiempo y la experiencia con los usuarios y otros sistemas. Los cuatro tipos de memoria descritos anteriormente en el artículo desempeñan un papel crucial para fundamentar la capacidad de un modelo de lenguaje de mantenerse consciente del contexto y producir resultados relevantes. Los sistemas de memoria funcionan en conjunto con técnicas de fundamentación como el entrenamiento, el ajuste fino y la integración del contexto externo para mejorar el rendimiento y la relevancia generales del modelo.
La memoria y la conexión a tierra son elementos interconectados que mejoran el rendimiento y la fiabilidad de los sistemas de IA. Mientras que la memoria permite a la IA retener y manipular información en distintos períodos de tiempo, la conexión a tierra garantiza que los resultados de la IA sean contextualmente relevantes y significativos. Al integrar sistemas de memoria y técnicas de conexión a tierra, los sistemas de IA pueden alcanzar un mayor nivel de comprensión y eficacia en sus interacciones y tareas.