Desempacar razonamiento en LLM modernos: por qué las respuestas finales no son suficientes
Los avances recientes en LLM centrados en el razonamiento como O1/3 de OpenAI y Deepseek-R1 han llevado a mejoras notables en tareas complejas. Sin embargo, el razonamiento paso a paso detrás de estos modelos sigue sin estar claro. La mayoría de las evaluaciones se centran en la precisión de la respuesta final, que oculta el proceso de razonamiento y no revela cómo los modelos combinan el conocimiento y la lógica. Algunos métodos anteriores intentan medir el razonamiento comparando las respuestas con la pregunta original, pero este enfoque es defectuoso ya que los modelos a menudo dependen de deducciones previas o conocimiento interno. Los dominios como las matemáticas y la medicina difieren en sus necesidades de razonamiento, destacando la importancia de desarrollar mejores métodos de evaluación de dominio para construir una IA confiable.
Las deficiencias de las evaluaciones de respuesta final en matemáticas y medicina
Los LLM recientes han hecho avances impresionantes en las tareas de razonamiento, especialmente en matemáticas y medicina, gracias a mejores datos de capacitación y estrategias de recompensa. Sin embargo, la mayor parte de este progreso se centra en aumentar la precisión de la respuesta final en lugar de comprender cómo el modelo razona paso a paso. El trabajo pasado ha marcado errores objetivos en cadenas de razonamiento o similitud mediante la similitud entre los pasos de razonamiento y la pregunta original. Pero tal similitud no garantiza la solidez lógica o la corrección objetiva, ya que los LLM a menudo se basan en el conocimiento interno o el razonamiento anterior.
Un nuevo marco para separar el conocimiento y la lógica en el razonamiento de LLM
Investigadores de la Universidad de UC Santa Cruz, Stanford y Tongji van más allá de la evaluación final de la respuesta al desglosar el razonamiento de LLM en dos partes clave: conocimiento objetivo y pasos lógicos. Presentan un marco detallado que utiliza dos métricas: el índice de conocimiento (KI) para la precisión objetiva y la ganancia de información (Infogain) para la calidad del razonamiento. Su análisis de los modelos QWEN en tareas matemáticas y médicas revela que las habilidades de razonamiento no se transfieren fácilmente entre dominios. Si bien el ajuste superior supervisado mejora la precisión, a menudo perjudica la profundidad del razonamiento. Sin embargo, el aprendizaje de refuerzo ayuda a refinar el razonamiento eliminando la información irrelevante. Este trabajo destaca la importancia de evaluar y capacitar a los LLM de manera más cuidadosa.
Evaluar el razonamiento con QWEN2.5-7b y Deepseek-R1 modelos
Los investigadores evalúan el razonamiento en LLMS analizando Qwen2.5-7b y su versión desenterrada de Deepseek-R1, entrenada con SFT y RL. Utilizando tareas de dominios matemáticos y médicos, descomponen las respuestas en pasos lógicos y las evalúan utilizando dos métricas clave: ganancia de información (cuánta incertidumbre se reduce con cada paso de razonamiento) y el índice de conocimiento (cuán preciso es cada paso, verificado contra fuentes expertas). Mientras Infogin rastrea la información de cada paso, KI verifica si el conocimiento se alinea con los hechos del mundo real. Este enfoque revela cómo razonan los modelos y dónde pueden vacilar en precisión o lógica.
Autoring supervisado versus aprendizaje de refuerzo en tareas específicas de dominio
El estudio evalúa dos variantes de Qwen-2.5-7b: Qwen-Base y el QWen-R1 destilado en tareas médicas. Los resultados muestran que Qwen-Base supera constantemente a Qwen-R1 en precisión, retención de conocimiento y razonamiento, especialmente después de SFT y RL. El modelo destilado probablemente lucha debido a la capacitación previa centrada en las matemáticas y el código, lo que resulta en un desajuste de dominio. Curiosamente, SFT mejora el conocimiento médico de manera más efectiva que RL, aunque puede comprometer ligeramente la eficiencia del razonamiento. RL, por otro lado, mejora tanto el razonamiento como el conocimiento cuando se aplica después del SFT. Los puntos de referencia médicos tienden a confiar más en el conocimiento objetivo que el razonamiento abstracto, a diferencia de las tareas centradas en las matemáticas.
Conclusión: hacia LLM más interpretables y confiables
En conclusión, el estudio introduce un marco que separa el conocimiento del razonamiento para evaluar mejor cómo piensan los LLM, particularmente en áreas de alto riesgo como la medicina y las matemáticas. Utilizando modelos QWEN entrenados con SFT y RL, los investigadores encontraron que si bien SFT mejora la precisión objetiva, esencial en la medicina, a menudo debilita el razonamiento. RL, sin embargo, mejora el razonamiento recortando información incorrecta. El marco podría extenderse a campos como la ley o las finanzas, donde el pensamiento estructurado es crucial. En general, este enfoque ayuda a aclarar cómo los LLM toman decisiones y sugiere formas de adaptar su entrenamiento para dominios específicos.
Mira el Papel, Código y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.