Los transformadores utilizan la atención y una combinación de expertos para escalar la computación, pero aún carecen de una forma nativa de realizar la búsqueda de conocimientos. Vuelven a calcular los mismos patrones locales una y otra vez, lo que desperdicia profundidad y FLOP. El nuevo módulo Engram de DeepSeek apunta exactamente a esta brecha agregando un eje de memoria condicional que funciona junto con MoE en lugar de reemplazarlo.
A un alto nivel, Engram moderniza las incorporaciones clásicas de N gram y las convierte en una memoria de búsqueda O(1) escalable que se conecta directamente a la columna vertebral de Transformer. El resultado es una memoria paramétrica que almacena patrones estáticos como frases y entidades comunes, mientras que la columna vertebral se centra en razonamientos más complejos e interacciones de largo alcance.
Cómo encaja Engram en un transformador DeepSeek
El enfoque propuesto utiliza el tokenizador DeepSeek V3 con un vocabulario de 128k y un entrenamiento previo con tokens de 262B. La columna vertebral es un transformador de 30 bloques con un tamaño oculto de 2560. Cada bloque utiliza atención latente de cabezales múltiples con 32 cabezales y se conecta a redes de alimentación directa a través de hiperconexiones restringidas múltiples con tasa de expansión 4. La optimización utiliza el optimizador Muon.
Engram se conecta a esta columna vertebral como un módulo de integración disperso. Está construido a partir de tablas hash de N gramos, con hash de múltiples cabezales en depósitos de tamaño principal, una pequeña convolución en profundidad sobre el contexto de N gramos y un escalar de activación consciente del contexto en el rango de 0 a 1 que controla qué cantidad de la incrustación recuperada se inyecta en cada rama.
En los modelos a gran escala, Engram-27B y Engram-40B comparten la misma columna vertebral de Transformer que MoE-27B. MoE-27B reemplaza la densa alimentación directa con DeepSeekMoE, utilizando 72 expertos enrutados y 2 expertos compartidos. Engram-27B reduce los expertos enrutados de 72 a 55 y reasigna esos parámetros en una memoria Engram de 5,7 B mientras mantiene los parámetros totales en 26,7 B. El módulo Engram usa N igual a {2,3}, 8 cabezas Engram, dimensión 1280 y se inserta en las capas 2 y 15. Engram 40B aumenta la memoria Engram a 18.5B parámetros mientras mantiene fijos los parámetros activados.
Asignación de escasez, una segunda perilla de escala además del Ministerio de Educación
La cuestión central del diseño es cómo dividir el escaso presupuesto de parámetros entre los expertos enrutados y la memoria condicional. El equipo de investigación formaliza esto como el problema de asignación de dispersión, con el índice de asignación ρ definido como la fracción de parámetros inactivos asignados a los expertos del MoE. Un modelo MoE puro tiene ρ igual a 1. La reducción de ρ reasigna los parámetros de los expertos a las ranuras de Engram.
En los modelos de escala media 5.7B y 9.9B, el barrido ρ proporciona una curva clara en forma de U de pérdida de validación versus índice de asignación. Los modelos de Engram coinciden con la línea de base pura del MoE incluso cuando ρ cae a aproximadamente 0,25, lo que corresponde aproximadamente a la mitad de los expertos desviados. El óptimo aparece cuando se le da a Engram entre el 20 y el 25 por ciento del escaso presupuesto. Este óptimo es estable en ambos regímenes de cálculo, lo que sugiere una división sólida entre el cálculo condicional y la memoria condicional en condiciones de escasez fija.
El equipo de investigación también estudió un régimen de memoria infinita en una red troncal fija de 3B MoE entrenada para 100B de tokens. Escalan la tabla de Engram de aproximadamente 2,58e5 a 1e7 espacios. La pérdida de validación sigue una ley de potencia casi perfecta en el espacio de registro, lo que significa que más memoria condicional sigue dando frutos sin necesidad de cálculo adicional. Engram también supera a OverEncoding, otro método de incrustación de N gramos que promedia la incrustación de vocabulario, con el mismo presupuesto de memoria.
Resultados previos al entrenamiento a gran escala
La comparación principal involucra cuatro modelos entrenados con el mismo plan de estudios de tokens de 262 mil millones, con 3,8 mil millones de parámetros activados en todos los casos. Estos son Dense 4B con 4.1B de parámetros totales, MoE 27B y Engram 27B con 26.7B de parámetros totales, y Engram 40B con 39.5B de parámetros totales.
En el conjunto de pruebas The Pile, la pérdida de modelado del lenguaje es 2.091 para MoE 27B, 1.960 para Engram 27B, 1.950 para la variante Engram 27B y 1.942 para Engram 40B. No se informa la pérdida del pilote Dense 4B. La pérdida de validación en el conjunto interno retenido cae de 1,768 para MoE 27B a 1,634 para Engram 27B y a 1,622 y 1,610 para las variantes de Engram.
En todos los puntos de referencia de conocimiento y razonamiento, Engram-27B mejora constantemente con respecto a MoE-27B. MMLU aumenta de 57,4 a 60,4, CMMLU de 57,9 a 61,9 y C-Eval de 58,0 a 62,7. ARC Challenge sube de 70,1 a 73,8, BBH de 50,9 a 55,9 y DROP F1 de 55,7 a 59,0. Las tareas de código y matemáticas también mejoran, por ejemplo HumanEval de 37,8 a 40,8 y GSM8K de 58,4 a 60,6.
Engram 40B generalmente aumenta estos números aún más, aunque los autores señalan que probablemente no esté suficientemente entrenado en tokens 262B porque su pérdida de entrenamiento continúa divergiendo de las líneas de base cerca del final del entrenamiento previo.
Comportamiento en contexto prolongado y efectos mecanicistas
Después del entrenamiento previo, el equipo de investigación amplió la ventana de contexto usando YaRN a 32768 tokens para 5000 pasos, utilizando 30 mil millones de tokens de contexto largos de alta calidad. Comparan MoE-27B y Engram-27B en puntos de control correspondientes a pasos de preentrenamiento de 41k, 46k y 50k.
En LongPPL y RULER en un contexto de 32k, Engram-27B iguala o supera a MoE-27B en tres condiciones. Con aproximadamente el 82 por ciento de los FLOP previos al entrenamiento, Engram-27B en 41k pasos coincide con LongPPL al tiempo que mejora la precisión de RULER, por ejemplo, Multi Query NIAH 99,6 frente a 73,0 y QA 44,0 frente a 34,5. Con pérdida iso a 46k y FLOP iso a 50k, Engram 27B mejora tanto la perplejidad como todas las categorías RULER, incluidas VT y QA.
El análisis mecanicista utiliza LogitLens y Centered Kernel Alignment. Las variantes de engramas muestran divergencia KL en capas inferiores entre los logits intermedios y la predicción final, especialmente en los primeros bloques, lo que significa que las representaciones están listas para la predicción antes. Los mapas de similitud de CKA muestran que las capas superficiales de Engram se alinean mejor con capas de MoE mucho más profundas. Por ejemplo, la capa 5 en Engram-27B se alinea con alrededor de la capa 12 en la línea base del MoE. En conjunto, esto respalda la opinión de que Engram aumenta efectivamente la profundidad del modelo al descargar la reconstrucción estática a la memoria.
Los estudios de ablación en un modelo MoE 3B de 12 capas con parámetros activados de 0,56B agregan una memoria de Engram de 1,6B como configuración de referencia, usando N igual a {2,3} e insertando Engram en las capas 2 y 6. El barrido de una sola capa de Engram a lo largo de la profundidad muestra que la inserción temprana en la capa 2 es óptima. Las ablaciones de componentes destacan tres piezas clave: integración de múltiples ramas, activación consciente del contexto y compresión de tokenizador.
El análisis de sensibilidad muestra que el conocimiento fáctico depende en gran medida de Engram, con TriviaQA cayendo a aproximadamente el 29 por ciento de su puntuación original cuando los resultados de Engram se suprimen en la inferencia, mientras que las tareas de comprensión lectora retienen entre el 81 y el 93 por ciento del rendimiento, por ejemplo, C3 con un 93 por ciento.
Conclusiones clave
Engram agrega un eje de memoria condicional a los LLM dispersos para que los patrones y entidades de N gramos frecuentes se recuperen mediante una búsqueda hash O(1), mientras que los expertos de Transformer y MoE se centran en el razonamiento dinámico y las dependencias de largo alcance. Bajo un parámetro fijo y un presupuesto de FLOP, reasignar alrededor del 20 al 25 por ciento de la escasa capacidad de los expertos del MoE a la memoria Engram reduce la pérdida de validación, lo que demuestra que la memoria condicional y el cálculo condicional son complementarios en lugar de competir. En un entrenamiento previo a gran escala con tokens de 262 mil millones, Engram-27B y Engram-40B con los mismos parámetros activados de 3.8 mil millones superan una línea base MoE-27B en modelado de lenguaje, conocimiento, razonamiento, código y puntos de referencia matemáticos, manteniendo la arquitectura troncal de Transformer sin cambios. La extensión de contexto largo a 32768 tokens usando YaRN muestra que Engram-27B coincide o mejora LongPPL y mejora claramente las puntuaciones de RULER, especialmente Multi-Query-Needle en un Haystack y seguimiento de variables, incluso cuando se entrena con cómputo menor o igual en comparación con MoE-27B.
Consulte el repositorio de Paper y GitHub. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Consulte nuestra última versión de ai2025.dev, una plataforma de análisis centrada en 2025 que convierte los lanzamientos de modelos, los puntos de referencia y la actividad del ecosistema en un conjunto de datos estructurado que puede filtrar, comparar y exportar.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.