Los modelos de última generación muestran una precisión competitiva humana en AIME, GPQA, Math-500 y Olympiadbench, resolviendo problemas de nivel de Olimpiada. Los recientes modelos de fundaciones multimodales tienen puntos de referencia avanzados para el conocimiento disciplinario y el razonamiento matemático. Sin embargo, estas evaluaciones pierden un aspecto crucial de la inteligencia de la máquina: razonamiento físico, que requiere integrar el conocimiento disciplinario, las operaciones simbólicas y las limitaciones del mundo real. La resolución de problemas físicos difiere fundamentalmente del razonamiento matemático puro, ya que exige que los modelos decodifiquen las condiciones implícitas en las preguntas. Por ejemplo, interpretar la “superficie lisa” como coeficiente de fricción cero y mantener la consistencia física en las cadenas de razonamiento porque las leyes físicas siguen siendo constantes independientemente de las trayectorias de razonamiento.
MLLM muestra una excelente comprensión visual al integrar datos visuales y textuales en varias tareas, motivando la exploración de sus habilidades de razonamiento. Sin embargo, la incertidumbre permanece con respecto a si estos modelos poseen capacidades de razonamiento avanzadas genuinas para las tareas visuales, particularmente en dominios físicos más cercanos a los escenarios del mundo real. Han surgido varios puntos de referencia de LLM para evaluar las habilidades de razonamiento, y Phybench es más relevante para el razonamiento físico. Los puntos de referencia científicos MLLM, como PhysRason y Emma, contienen problemas de física multimodal con cifras, sin embargo, incluyen solo pequeños subconjuntos de física, que evalúan de manera inadecuada las capacidades de MLLM para razonar y resolver problemas físicos avanzados.
Investigadores de la Universidad de Hong Kong, la Universidad de Michigan, la Universidad de Toronto, la Universidad de Waterloo y la Universidad Estatal de Ohio han propuesto PHYX, un nuevo punto de referencia para evaluar las capacidades de razonamiento físico de los modelos fundamentales. Comprende 3.000 preguntas de física visualmente fundamentadas, seleccionadas con precisión en seis dominios físicos distintos: mecánica, electromagnetismo, termodinámica, olas/acústica, óptica y física moderna. Evalúa el razonamiento basado en la física a través de la resolución multimodal de problemas con tres innovaciones básicas: (a) 3.000 preguntas recientemente recopiladas con escenarios físicos realistas que requieren análisis visual integrado y razonamiento causal, (b) diseño de datos validados de expertos que cubren seis dominios de física fundamental y (c) estrictos protocolos de evaluación de tres pasos.
Los investigadores diseñaron un proceso de recopilación de datos de cuatro etapas para garantizar datos de alta calidad. El proceso comienza con una encuesta en profundidad de disciplinas de física central para determinar la cobertura entre diversos dominios y subcampos, seguido del reclutamiento de estudiantes de posgrado STEM como anotadores expertos. Cumplen con las restricciones de derechos de autor y evitan la contaminación de datos seleccionando preguntas sin respuestas que estén disponibles de inmediato. Además, el control de calidad implica un proceso de limpieza de tres etapas que incluye la detección duplicada a través del análisis de superposición léxica con revisión manual de Physics Ph.D. Los estudiantes, seguidos de filtrar el 10% más corto de las preguntas basadas en la longitud textual, lo que resulta en 3.000 preguntas de alta calidad de una colección inicial de 3,300.
PHYX presenta desafíos significativos para los modelos actuales, incluso los expertos humanos de peor desempeño alcanzan una precisión del 75.6%, superan a todos los modelos evaluados y muestran una brecha entre la experiencia humana y las capacidades del modelo actual. El punto de referencia revela que los formatos de opción múltiple estrechan lagunas de rendimiento al permitir que los modelos más débiles se basen en señales de nivel de superficie, pero las preguntas abiertas exigen un razonamiento genuino y una generación precisa de respuestas. Comparando el rendimiento de GPT-4O en PHYX con los resultados informados previamente en Mathvista y Math-V (ambos 63.8%), una menor precisión en las tareas de razonamiento físico enfatiza que el razonamiento físico requiere una integración más profunda de conceptos abstractos y conocimiento del mundo real, presentando mayores desafíos que los contextos puramente matemáticos.
En conclusión, los investigadores introdujeron PHYX, el primer punto de referencia a gran escala para evaluar el razonamiento físico en escenarios multimodales y visuales. La evaluación rigurosa revela que los modelos de vanguardia muestran limitaciones en el razonamiento físico, dependiendo predominantemente de conocimiento memorizado, fórmulas matemáticas y patrones visuales superficiales en lugar de una comprensión genuina de los principios físicos. El punto de referencia se centra exclusivamente en las indicaciones y anotaciones en inglés, lo que limita la evaluación de las habilidades de razonamiento multilingüe. Además, mientras que las imágenes representan escenarios físicamente realistas, a menudo son fotografías esquemáticas o de estilo de libros de texto en lugar de fotografías del mundo real, que pueden no capturar completamente la complejidad de la percepción en entornos naturales.
Mira el Papel, Código y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.
