Google Deepmind Research presenta Questbench: Evaluación de la capacidad de LLM para identificar información faltante en tareas de razonamiento

Los modelos de idiomas grandes (LLM) han ganado una tracción significativa en las tareas de razonamiento, incluidas las matemáticas, la lógica, la planificación y la codificación. Sin embargo, surge un desafío crítico al aplicar estos modelos a escenarios del mundo real. Si bien las implementaciones actuales generalmente funcionan bajo el supuesto de que toda la información necesaria se proporciona por adelantado en tareas bien especificadas, la realidad a menudo presenta situaciones incompletas o ambiguas. Los usuarios con frecuencia omiten detalles cruciales al formular problemas matemáticos, y los sistemas autónomos como los robots deben funcionar en entornos con observabilidad parcial. Este desajuste fundamental entre la configuración de información completa idealizada y la naturaleza incompleta de los problemas del mundo real requiere que LLMS desarrolle capacidades proactivas de recolección de información. Reconocer la brecha de información y generar preguntas aclaratorias relevantes representa una funcionalidad esencial pero subdesarrollada para que los LLM navegen de manera efectiva en escenarios ambiguos y proporcionen soluciones precisas en aplicaciones prácticas.

Varios enfoques han intentado abordar el desafío de la recopilación de información en escenarios ambiguos. Las estrategias de aprendizaje activo adquieren datos secuenciales a través de métodos como optimización bayesiana, aprendizaje de refuerzo y planificación de robots con estados parcialmente observables. La investigación sobre la ambigüedad en el lenguaje natural ha explorado las incertidumbres semánticas, la pregunta objetiva, los diálogos orientados a las tareas y las preferencias personalizadas. Los métodos de agradecimiento de preguntas para LLM incluyen técnicas de solicitación directa, cálculo de ganancia de información y marcos de aclaración de varias etapas. Sin embargo, la mayoría de los puntos de referencia existentes se centran en tareas subjetivas donde existen múltiples preguntas de clarificación válidas, lo que dificulta la evaluación objetiva. Estos enfoques abordan tareas ambiguas o basadas en el conocimiento en lugar de problemas de razonamiento subestimados, donde una pregunta objetivamente correcta es determinable.

Questbench presenta un enfoque robusto para evaluar la capacidad de LLM para identificar y adquirir información faltante en tareas de razonamiento. La metodología formaliza problemas subspecificados como Problemas de satisfacción de restricción (CSP) donde una variable objetivo no se puede determinar sin información adicional. A diferencia de la ambigüedad semántica, donde existen múltiples interpretaciones, pero cada una produce una respuesta solucionable, la especificación subestimada hace que los problemas no seanzen sin datos complementarios. Questbench se centra específicamente en “CSP de 1 suficiente”: problemas que requieren conocimiento del valor de una variable desconocida para resolver la variable objetivo. El punto de referencia comprende tres dominios distintos: Logic-Q (tareas de razonamiento lógico), Planning-Q (bloquea problemas de planificación mundial con estados iniciales parcialmente observados) y GSM-Q/GSME-Q (problemas matemáticos de la escuela primaria en formas verbales y de ecuación). El marco clasifica estratégicamente problemas a lo largo de cuatro ejes de dificultad: número de variables, número de restricciones, profundidad de búsqueda requerida y conjeturas esperadas que necesitan la búsqueda de fuerza bruta. Esta clasificación ofrece información sobre las estrategias de razonamiento de LLMS y las limitaciones de rendimiento.

Questbench emplea un marco formal de problemas de satisfacción de restricciones, identifica y evalúa con precisión las brechas de información en tareas de razonamiento. Un CSP se define como una tupla ⟨x, d, c, a, y⟩ donde x representa variables, d denota sus dominios, c abarca restricciones, una consiste en tareas variables e y es la variable objetivo para resolver. El marco introduce el predicado “conocido”, lo que indica cuándo es determinable el valor de una variable a través de la asignación directa o la derivación de las restricciones existentes. Un CSP se clasifica como subestimado cuando la variable de destino y no se puede determinar a partir de la información disponible. La metodología se centra específicamente en “CSPS-Suficiente 1”, donde conocer solo una variable adicional es suficiente para resolver el objetivo.

El punto de referencia mide el rendimiento del modelo a lo largo de cuatro ejes de dificultad que corresponden a la complejidad algorítmica: número total de variables (| x |), número total de restricciones (| c |), profundidad del árbol de búsqueda hacia atrás (d) y el número esperado de conjeturas aleatorias necesarias (𝔼BF). Estas métricas proporcionan medidas cuantitativas de complejidad de problemas y ayudan a diferenciar entre ambigüedad semántica (múltiples interpretaciones válidas) y la especificación subestimada (información faltante). Para cada tarea, los modelos deben identificar la variable suficiente suficiente que, cuando se conoce, permite resolver la variable objetivo, que requiere el reconocimiento de las brechas de información y el razonamiento estratégico sobre las relaciones de restricción.

Evaluación experimental de Banco de misiones revela diferentes capacidades entre los principales modelos de idiomas grandes en tareas de recolección de información. Vista previa GPT-4O, GPT-4-O1, soneto Claude 3.5, Gemini 1.5 Pro/Flash, Gemini 2.0 Flash Thinking Experimental y modelos de Gemma de origen abierto se probaron a través de entornos de disparo cero, cadena de pensamiento y cuatro disparos. Las pruebas se realizaron en subconjuntos representativos de 288 tareas GSM-Q y 151 GSME-Q entre junio de 2024 y marzo de 2025. El análisis de rendimiento a lo largo de los ejes de dificultad demuestra que los modelos luchan más con problemas con altas profundidades de búsqueda y relaciones de restricción complejas. La incrustación de la cadena de pensamiento generalmente mejoró el rendimiento en todos los modelos, lo que sugiere que las vías de razonamiento explícitas ayudan a identificar las brechas de información. Entre los modelos evaluados, Gemini 2.0 Flash Thinking Experimental logró la mayor precisión, particularmente en las tareas de planificación, mientras que los modelos de código abierto mostraron un rendimiento competitivo en las tareas de razonamiento lógico, pero lucharon con problemas matemáticos complejos que requieren una búsqueda más profunda.

Questbench proporciona un marco único para evaluar la capacidad de LLM para identificar la información subestimada y generar preguntas de aclaración apropiadas en tareas de razonamiento. Los modelos actuales de última generación demuestran un rendimiento razonable en problemas simples de álgebra, pero luchan significativamente con tareas lógicas y planificación complejas. El rendimiento se deteriora a medida que la complejidad del problema aumenta a lo largo de las dimensiones clave como la profundidad de búsqueda y el número esperado de conjeturas de fuerza bruta. Estos hallazgos destacan que, si bien la capacidad de razonamiento es necesaria para la pregunta efectiva de preguntas, solo puede no ser suficiente. Existen oportunidades de avance significativas en el desarrollo de LLM que puedan reconocer mejor las brechas de información y solicitar aclaraciones cuando funcionan bajo incertidumbre.

Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop

Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.

Google Deepmind Research presenta Questbench: Evaluación de la capacidad de LLM para identificar información faltante en tareas de razonamiento

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una implementación detallada en Equinox con módulos nativos JAX, transformaciones filtradas, capas con estado y flujos de trabajo de capacitación de un extremo a otro

Uso de un LLM local como clasificador de tiro cero

Amazon Quick para marketing: de datos dispersos a acciones estratégicas

You missed

Por qué la subsidencia del delta del río supera el aumento del nivel del mar: el agua subterránea pone en riesgo a millones

El ícono mundial del baloncesto Tyler Kepkay se une a FGA Trust como embajador de marca para la oficina de FGA Athlete Trust

Mike Vrabel y Dianna Russini besándose en fotos 6 años antes del escándalo

Una implementación detallada en Equinox con módulos nativos JAX, transformaciones filtradas, capas con estado y flujos de trabajo de capacitación de un extremo a otro