Los modelos de lenguaje grandes (LLM) demuestran competencia en la recuperación de información y la escritura creativa, con mejoras notables en matemáticas y codificación. ZebraLogicun punto de referencia que consiste en rompecabezas de cuadrícula lógica, evalúa las capacidades de razonamiento lógico de los estudiantes de LLM. Cada rompecabezas presenta N casas con M características, lo que requiere asignaciones de valores únicos en función de pistas dadas. Esta tarea, un problema de satisfacción de restricciones (CSP), evalúa las habilidades de razonamiento deductivo y se utiliza comúnmente en evaluaciones como el examen de admisión a la facultad de derecho (LSAT) para medir la aptitud lógica humana.
El estudio presenta un ejemplo, un rompecabezas de cuadrícula lógica de 2×3 con dos casas y tres características: nombres, modelos de automóviles y animales. Las pistas proporcionan información esencial para el razonamiento deductivo. A través del análisis lógico, surge la solución: Eric vive en la casa 1, posee un Ford F150 y tiene caballos. Arnold vive en la casa 2, conduce un Tesla Model 3 y tiene un gato. Este ejemplo demuestra el proceso de razonamiento paso a paso necesario para resolver este tipo de rompecabezas, lo que ilustra las habilidades de deducción lógica evaluadas por el punto de referencia ZebraLogic.
El benchmark ZebraLogic comprende 1000 rompecabezas generados programáticamente, que van desde 2×2 a 6×6 en tamaño, con 40 rompecabezas por categoría de tamaño. Los modelos de lenguaje grandes se someten a pruebas utilizando un enfoque de ejemplo de una sola prueba. Este método incluye proporcionar pasos de razonamiento y una solución con formato JSON. Se les indica a los modelos que primero muestren su proceso de razonamiento y luego presenten sus respuestas en el mismo formato JSON que el ejemplo proporcionado. Este enfoque estandarizado permite una evaluación consistente de las habilidades de razonamiento lógico de los LLM en diversas complejidades de rompecabezas.
La evaluación emplea dos métricas principales: precisión a nivel de rompecabezas y precisión a nivel de celda. Para los rompecabezas NxM, la precisión a nivel de celda mide la proporción de celdas correctamente llenadas de un total de NxM celdas. Para tener éxito a nivel de rompecabezas, es necesario que todas las celdas sean correctas. Los 1000 rompecabezas se clasifican en subconjuntos fáciles y difíciles según el tamaño.
La probabilidad de adivinación aleatoria para la asignación correcta de características es 1/(N!), y para todas las celdas es (1/N!)M. Los valores logarítmicos de estas probabilidades se presentan en una tabla, que ilustra la creciente dificultad con el tamaño del rompecabezas. Este enfoque cuantifica la complejidad y evalúa el rendimiento de LLM frente al azar.
Los humanos resuelven estos acertijos mediante razonamiento estratégico, empleando técnicas como la reducción al absurdo y la eliminación. Los modelos LLM demuestran debilidad en tareas de razonamiento lógico, con Claude 3.5 Sonnet logrando un 33,4% de precisión general y un 12,4% en acertijos difíciles. DeepSeek-v2-Chat (0628) supera a otros modelos de peso abierto. Los modelos más pequeños (7-10 mil millones de parámetros) tienen dificultades significativas con los acertijos difíciles.
Los resultados indican que los LLM carecen de capacidades cruciales para el razonamiento lógico complejo: pensamiento contrafáctico, razonamiento reflexivo, memorización estructurada y generalización compositiva. La decodificación voraz generalmente supera al muestreo para la mayoría de los modelos en tareas de razonamiento difícil. Los modelos Gemini-1.5 muestran patrones de rendimiento inesperados en diferentes métodos de decodificación.
El rendimiento humano varía según el tamaño del rompecabezas, con tiempos de resolución que van desde 15 segundos para rompecabezas de 2×2 hasta 10-15 minutos para rompecabezas de 4×4. Una demostración en HuggingFace permite explorar los datos y la tabla de clasificación.
El proceso de creación de un rompecabezas implica varios pasos sistemáticos:
1. Defina las características y los posibles valores para cada una.
2. Establezca tipos de pistas con plantillas de idioma que contengan marcadores de posición.
3. Generar soluciones asignando valores aleatoriamente a una cuadrícula muestreada.
4. Enumere todas las pistas posibles que describan las relaciones entre las variables.
5. Eliminar pistas de forma iterativa a través de un muestreo ponderado, garantizando que las pistas restantes conduzcan a una solución única.
6. Formatee los rompecabezas utilizando plantillas de indicaciones para la entrada de LLM.
Los tipos de pistas incluyen: Found_At, Not_At, Same_House, Direct_Left/Right, Side_By_Side, Left/Right_Of y One/Two_between. Cada tipo representa una restricción lógica específica, lo que permite configuraciones de rompecabezas diversas y desafiantes.
ZebraLogic, un punto de referencia de 1000 rompecabezas de cuadrícula lógica, evalúa las capacidades de razonamiento lógico de los LLM. Estos rompecabezas requieren asignar valores únicos a las características en N casas según las pistas dadas. El estudio utiliza métricas de precisión a nivel de rompecabezas y de celda por celda, comparando el rendimiento de los LLM con las probabilidades de adivinación aleatoria. Los resultados muestran que los LLM tienen dificultades con el razonamiento lógico complejo, y el mejor modelo (Claude 3.5 Sonnet) resuelve solo el 33,4 % de todos los rompecabezas y el 12,4 % de los rompecabezas difíciles. La investigación destaca las deficiencias de los LLM en el pensamiento contrafáctico, el razonamiento reflexivo, la memorización estructurada y la generalización compositiva. El artículo detalla el proceso de creación de rompecabezas y los diversos tipos de pistas utilizados, lo que proporciona información sobre los desafíos del razonamiento lógico para los sistemas de IA.
Revisar la Punto de referencia, GitHub, y Tarjeta de conjunto de datos. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.