Los investigadores de Apple revelan fallas estructurales en grandes modelos de razonamiento utilizando evaluación basada en rompecabezas

La inteligencia artificial ha sufrido una transición significativa de modelos de lenguaje básico a modelos avanzados que se centran en las tareas de razonamiento. Estos sistemas más nuevos, conocidos como grandes modelos de razonamiento (LRMS), representan una clase de herramientas diseñadas para simular el pensamiento similar a los humanos al producir pasos de razonamiento intermedio antes de llegar a conclusiones. El enfoque ha pasado de generar resultados precisos para comprender el proceso que conduce a estas respuestas. Este cambio ha planteado preguntas sobre cómo estos modelos gestionan las tareas con la complejidad en capas y si realmente poseen habilidades de razonamiento o simplemente están aprovechando los patrones de capacitación para adivinar los resultados.

Redefinición de la evaluación: ir más allá de la precisión de la respuesta final

Un problema recurrente con la evaluación del razonamiento de la máquina es que los puntos de referencia tradicionales evalúan principalmente la respuesta final sin examinar los pasos involucrados en la llegada de él. La precisión de la respuesta final por sí sola no revela la calidad del razonamiento interno, y muchos puntos de referencia están contaminados con datos que pueden haberse visto durante el entrenamiento. Esto crea una imagen engañosa de las verdaderas capacidades de un modelo. Para explorar el razonamiento real, los investigadores requieren entornos donde la dificultad del problema se puede controlar con precisión y se pueden analizar los pasos intermedios. Sin dicha configuración, es difícil determinar si estos modelos pueden generalizar soluciones o simplemente memorizar patrones.

Para evaluar el razonamiento de manera más confiable, el equipo de investigación de Apple diseñó una configuración utilizando cuatro entornos de rompecabezas: Tower of Hanoi, River Crossing, Checkers Jumping y Blocks World. Estos rompecabezas permiten una manipulación precisa de la complejidad al cambiar elementos, como el número de discos, damas o agentes involucrados. Cada tarea requiere diferentes habilidades de razonamiento, como la satisfacción de la restricción y la planificación secuencial. Es importante destacar que estos entornos están libres de contaminación de datos típica, lo que permite verificaciones exhaustivas de ambos resultados y los pasos de razonamiento intermedios. Este método garantiza una investigación detallada de cómo se comportan los modelos a través de las variadas demandas de tareas.

La investigación introdujo un estudio comparativo utilizando dos conjuntos de modelos: Claude 3.7 Sonnet y Deepseek-R1, junto con sus variantes de “pensamiento” y sus contrapartes estándar de LLM. Estos modelos se probaron a través de los rompecabezas bajo presupuestos de token idénticos para medir tanto la precisión como la eficiencia del razonamiento. Esto ayudó a revelar cambios de rendimiento en tareas de baja, media y alta complejidad. Una de las observaciones más reveladoras fue la formación de tres zonas de rendimiento. En tareas simples, los modelos no pensados ​​superan las variantes de razonamiento. Para la complejidad media, los modelos de razonamiento ganaron una ventaja, mientras que ambos tipos se derrumbaron por completo a medida que la complejidad alcanzó su punto máximo.

Información comparativa: pensamiento versus modelos no pensativos bajo estrés

Un análisis en profundidad reveló que el esfuerzo de razonamiento aumentó con la dificultad de la tarea hasta cierto punto, pero luego disminuyó a pesar de la disponibilidad de recursos. Por ejemplo, en la Torre de Hanoi, el soneto Claude 3.7 (pensamiento) mantuvo una alta precisión hasta que la complejidad alcanzó un cierto umbral, después de lo cual el rendimiento cayó a cero. Incluso cuando estos modelos se suministraron con algoritmos de solución explícitos, no pudieron ejecutar pasos más allá de los niveles de complejidad específicos. En un caso, Claude 3.7 podría manejar alrededor de 100 pasos correctamente para la Torre de Hanoi, pero no pudo completar tareas de cruce de río más simples que requirieron solo 11 movimientos cuando $ N = 3 $. Esta inconsistencia expuso limitaciones serias en la manipulación simbólica y el cálculo exacto.

El desglose de rendimiento también destacó cómo los LRM manejan su proceso de pensamiento interno. Los modelos con frecuencia participan en “pensamiento demasiado”, que generan soluciones intermedias correctas al principio del proceso, pero continúan explorando las rutas incorrectas. Esto condujo al uso ineficiente de tokens. A niveles medios de complejidad, los modelos comenzaron a encontrar respuestas correctas más adelante en sus cadenas de razonamiento. Sin embargo, a altos niveles de complejidad, no pudieron producir soluciones precisas. El análisis cuantitativo confirmó que la precisión de la solución cayó a casi cero a medida que aumentaba la complejidad del problema, y ​​el número de tokens de razonamiento asignados comenzó a disminuir inesperadamente.

Límites de escala y el colapso del razonamiento

Esta investigación presenta una evaluación aleccionadora de cómo operan los sistemas actuales de gestión de recursos de aprendizaje (LRMS). La investigación de Apple deja en claro que, a pesar de algunos progresos, los modelos de razonamiento de hoy aún están lejos de lograr un razonamiento generalizado. El trabajo identifica cómo las escamas de rendimiento, dónde colapsa y por qué la excesiva dependencia de la precisión de referencia no puede capturar un comportamiento de razonamiento más profundo. Los entornos de rompecabezas controlados han demostrado ser una herramienta poderosa para descubrir debilidades ocultas en estos sistemas y enfatizar la necesidad de diseños más robustos en el futuro.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.