¿Puede un solucionador iterativo de revisión de borradores que actualiza repetidamente un scratchpad latente superar a los LLM autorregresivos mucho más grandes en ARC-AGI? Samsung SAIT (Montreal) ha lanzado Tiny Recursive Model (TRM), un razonador recursivo de dos capas con ~7 millones de parámetros que reporta una precisión de prueba de 44,6 a 45 % en ARC-AGI-1 y de 7,8 a 8 % en ARC-AGI-2, superando los resultados reportados para modelos de lenguaje sustancialmente más grandes, como DeepSeek-R1, o3-mini-high y Gemini 2.5 Pro en las mismas evaluaciones públicas. TRM también mejora los puntos de referencia de rompecabezas Sudoku-Extreme (87,4%) y Maze-Hard (85,3%) con respecto al modelo de razonamiento jerárquico anterior (HRM, 27 millones de parámetros), al tiempo que utiliza muchos menos parámetros y una receta de entrenamiento más simple.
¿Qué es exactamente nuevo?
TRM elimina la jerarquía de dos módulos de HRM y la aproximación de gradiente de punto fijo en favor de una única red pequeña que recurre en un “bloc de notas” latente (z) y una solución actual integrada (y):
Núcleo recurrente diminuto y único. Reemplaza la jerarquía de dos módulos de HRM con una red de dos capas que mantiene conjuntamente un scratchpad latente 𝑧 z y una solución actual que incorpora 𝑦 y. El modelo alterna: piensa: actualizar 𝑧 ← 𝑓 ( 𝑥 , 𝑦 , 𝑧 ) z←f(x,y,z) para 𝑛 n pasos internos; acto: actualizar 𝑦 ← 𝑔 ( 𝑦 , 𝑧 ) y←g(y,z). Recursión profundamente supervisada. El bloque pensar→actuar se desenrolla hasta 16 veces con una supervisión profunda y una cabeza de parada aprendida que se utiliza durante el entrenamiento (desenrollado completo en el momento de la prueba). Las señales se transmiten a través de pasos a través de (y,z)(y, z)(y,z). Backprop completo a través del bucle. A diferencia de la aproximación de gradiente implícita (de punto fijo) de un paso de HRM, TRM se propaga hacia atrás a través de todos los pasos recursivos, lo que el equipo de investigación considera esencial para la generalización.
Desde el punto de vista arquitectónico, la configuración de mejor rendimiento para ARC/Maze conserva la atención propia; Para las pequeñas cuadrículas fijas de Sudoku, el equipo de investigación cambió la atención personal por un mezclador de fichas estilo MLP-Mixer. Una pequeña EMA (media móvil exponencial) sobre pesos estabiliza el entrenamiento con datos limitados. La profundidad neta se crea efectivamente mediante recursividad (p. ej., T = 3, n = 6) en lugar de apilar capas; en las ablaciones, dos capas se generalizan mejor que las variantes más profundas con el mismo cálculo efectivo.
Comprender los resultados
ARC-AGI-1 / ARC-AGI-2 (dos intentos): TRM-Attn (7M): 44,6% / 7,8% vs HRM (27M): 40,3% / 5,0%. Las líneas de base de LLM informadas por el equipo de investigación: DeepSeek-R1 (671B) 15,8 %/1,3 %, o3-mini-high 34,5 %/3,0 %, Gemini 2.5 Pro 37,0 %/4,9 %; Las entradas más grandes de Grok-4 hechas a medida son más altas (66,7–79,6% / 16–29,4%). Sudoku-Extreme (9×9, tren 1K / prueba 423K): 87,4% con mezclador sin atención vs HRM 55,0%. Laberinto difícil (30×30): 85,3% frente a HRM 74,5%.
Estos son modelos de predicción directa entrenados desde cero en conjuntos de datos pequeños y muy aumentados, no con indicaciones de pocas tomas. ARC sigue siendo el objetivo canónico; La ARC Prize Foundation realiza un seguimiento del contexto y las reglas más amplias de la tabla de clasificación (por ejemplo, el umbral del gran premio ARC-AGI-2 con un 85 % de conjunto privado).
¿Por qué un modelo 7M puede superar a los LLM mucho más grandes en estas tareas?
Decisión y luego revisión en lugar de token por token: TRM redacta una solución candidata completa y luego la mejora mediante comprobaciones de coherencia iterativas latentes contra la entrada, lo que reduce el sesgo de exposición de la decodificación autorregresiva en resultados estructurados. Computación invertida en el razonamiento del tiempo de prueba, no en el recuento de parámetros: la profundidad efectiva surge de la recursividad (profundidad emulada ≈ T·(n+1)·capas), que según los investigadores produce una mejor generalización en computación constante que agregar capas. Sesgo inductivo más estricto en el razonamiento de la cuadrícula: para cuadrículas fijas pequeñas (por ejemplo, Sudoku), la mezcla sin atención reduce el exceso de capacidad y mejora las compensaciones entre sesgo y varianza; La atención personal se mantiene para cuadrículas más grandes de 30 × 30.
Conclusiones clave
Arquitectura: Un solucionador recursivo de 2 capas y parámetros de ~7M que alterna actualizaciones de “pensamiento” latentes 𝑧 ← 𝑓 ( 𝑥 , 𝑦 , 𝑧 ) z←f(x,y,z) y un refinamiento de “acto” 𝑦 ← 𝑔 ( 𝑦 , 𝑧 ) y←g(y,z), desenrollado hasta 16 pasos con supervisión profunda; los gradientes se propagan a través de la recursividad completa (sin aproximación de punto fijo/IFT). Resultados: Informes de ~44,6 a 45 % sobre ARC-AGI-1 y ~7,8 a 8 % sobre ARC-AGI-2 (dos intentos), superando varios LLM mucho más grandes citados en la comparación del artículo de investigación (p. ej., Gemini 2.5 Pro, o3-mini-high, DeepSeek-R1) según el protocolo de evaluación indicado. Eficiencia/Patrón: Demuestra que asignar computación en tiempo de prueba al refinamiento recursivo (profundidad mediante desenrollado) puede superar el escalado de parámetros en tareas simbólicas-geométricas, ofreciendo una receta compacta desde cero con código publicado públicamente.
Esta investigación demuestra un solucionador recursivo de dos capas y parámetros de ~7M que desarrolla hasta 16 ciclos de revisión de borradores con ~6 actualizaciones latentes por ciclo e informa ~45 % en ARC-AGI-1 y ~8 % (dos intentos) en ARC-AGI-2. El equipo de investigación publicó el código en GitHub. ARC-AGI sigue sin resolverse a escala (objetivo del 85 % en ARC-AGI-2), por lo que la contribución es un resultado de eficiencia arquitectónica en lugar de un avance en el razonamiento general.
Consulte el documento técnico y la página de GitHub. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.