Omega: un punto de referencia de matemáticas estructuradas para investigar los límites de razonamiento de LLMS

Introducción a la generalización en razonamiento matemático

Los modelos de lenguaje a gran escala con un razonamiento largo de cuna, como Deepseek-R1, han mostrado buenos resultados en las matemáticas a nivel de la Olimpiada. Sin embargo, los modelos entrenados a través del ajuste fino supervisado o el aprendizaje de refuerzo dependen de técnicas limitadas, como repetir las reglas de álgebra conocidas o el incumplimiento para coordinar la geometría en problemas de diagrama. Dado que estos modelos siguen patrones de razonamiento aprendidos en lugar de mostrar una verdadera creatividad matemática, enfrentan desafíos con tareas complejas que exigen ideas originales. Los conjuntos de datos matemáticos actuales son poco adecuados para analizar las habilidades matemáticas que los modelos RL pueden aprender. Los corpus a gran escala integran una variedad de preguntas matemáticas que varían en el tema y la dificultad, lo que hace que sea difícil aislar habilidades de razonamiento específicas.

Limitaciones de los puntos de referencia matemáticos actuales

Los métodos actuales, como la generalización fuera de distribución, se centran en el manejo de distribuciones de pruebas que difieren de los datos de capacitación, lo cual es crucial para el razonamiento matemático, el modelado físico y el pronóstico financiero. Las técnicas de generalización de composición tienen como objetivo ayudar a los modelos a combinar sistemáticamente las habilidades aprendidas. Los investigadores han creado conjuntos de datos a través de varios métodos para comparar las habilidades matemáticas, que incluyen la contratación de humanos para escribir problemas como GSM8K y Minervamath, recopilar preguntas de exámenes como AIME y Olimpiadbench, y raspando y filtrando los corpus como Numinamath y Bigmath. Sin embargo, estos enfoques carecen de un desafío suficiente para los LLM modernos o no pueden proporcionar granularidad de análisis.

Introducción de Omega: un punto de referencia controlado para las habilidades de razonamiento

Investigadores de la Universidad de California, AI2, la Universidad de Washington y DMODEL.AI han propuesto Omega, un punto de referencia diseñado para evaluar tres dimensiones de generalización fuera de distribución, inspirada en la tipología de creatividad de Boden. Crea pares de entrenamiento y prueba de entrenamiento diseñados para aislar habilidades de razonamiento específicas en tres dimensiones: exploratoria, compositiva y transformadora. Los problemas de prueba y tren de Omega se construyen utilizando plantillas cuidadosamente modificadas, lo que permite un control preciso sobre la diversidad, la complejidad y las estrategias de razonamiento específicas necesarias para las soluciones. Además, emplea 40 generadores de problemas plantados en seis dominios matemáticos: aritmética, álgebra, combinatoria, teoría de números, geometría y lógica y rompecabezas.

Evaluación en Frontier LLMS y configuración de aprendizaje de refuerzo

Los investigadores evalúan cuatro modelos fronterizos, incluidos Deepseek-R1, Claude-3.7-Sonnet, OpenAI-O3-Mini y OpenAI-O4-Mini, en diferentes niveles de complejidad. Para los experimentos de generalización RL, el marco aplica el algoritmo GRPO en 1,000 problemas de entrenamiento utilizando modelos QWEN2.5-7B-Instructo y QWEN2.5-Math-7B. Generalización exploratoria Entrena en niveles restringidos de complejidad y evalúa sobre problemas de mayor complejidad. La generalización compositiva implica modelos de capacitación sobre habilidades individuales de forma aislada y prueba de su capacidad para combinar y aplicar esas habilidades de manera efectiva. La generalización transformacional entrena en enfoques de solución convencionales y evalúa el rendimiento de los problemas que necesitan estrategias no convencionales.

Observaciones de rendimiento y patrones de comportamiento del modelo

Los LLM de razonamiento tienden a funcionar peor a medida que aumenta la complejidad del problema, a menudo encuentran soluciones correctas temprano, pero gastando demasiadas tokens en verificación innecesaria. RL se aplicó solo en problemas de baja complejidad mejora la generalización a los problemas de complejidad media, con mayores ganancias en ejemplos internos que fuera de distribución, lo que indica la efectividad de RL para reforzar patrones familiares. Por ejemplo, en el dominio lógico Zebra, el modelo base logra solo el 30% de precisión. Sin embargo, el entrenamiento de RL aumentó el rendimiento en 61 puntos en ejemplos internos y 53 puntos en ejemplos fuera de distribución sin SFT.

Conclusión: hacia el avance del razonamiento transformador

En conclusión, los investigadores introdujeron Omega, un punto de referencia que aísla y evalúa tres ejes de generalización fuera de distribución en el razonamiento matemático: exploratorio, composicional y transformador. El estudio empírico revela tres ideas: (a) el ajuste fino de RL mejora significativamente el rendimiento en las tareas de generalización en distribución y exploratoria, (b) los beneficios de RL para las tareas de composición son limitados y (c) RL no pueden inducir patrones de razonamiento genuinamente nuevos. Estos hallazgos destacan una limitación fundamental: RL puede amplificar la amplitud y profundidad de resolución de problemas, pero se queda corto en permitir los saltos creativos esenciales para el razonamiento transformador. El trabajo futuro debería explorar los andamios curriculares y los controladores de meta-razonamiento.

Mira el Papel, Página del proyecto y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.

Omega: un punto de referencia de matemáticas estructuradas para investigar los límites de razonamiento de LLMS

ByEquipo de 7 minutos

Introducción a la generalización en razonamiento matemático

Limitaciones de los puntos de referencia matemáticos actuales

Introducción de Omega: un punto de referencia controlado para las habilidades de razonamiento

Evaluación en Frontier LLMS y configuración de aprendizaje de refuerzo

Observaciones de rendimiento y patrones de comportamiento del modelo

Conclusión: hacia el avance del razonamiento transformador

By Equipo de 7 minutos

Related Post

Conozca Memory OS: una pila de memoria de código abierto de 6 capas construida sobre Hermes Agent

Garantizar la integridad de los datos con hash criptográfico y la cadena de bloques Ethereum

Escapar del valle de las opciones en BI

You missed

En TikTok, un vaporizador ilegal llega disfrazado de brillo labial

Mamdani complace al bloque de votantes clave: fanáticos de los Knicks de 5 años

PETA expone una crisis inquietante para los perros en Skid Row

La UE aprueba las reformas migratorias más duras en años mientras los centros de retorno en el extranjero obtienen luz verde « Euro Weekly News