¿Pueden los estudiantes de maestría visualizar gráficos? Evaluación de la comprensión simbólica de programas en IA

Los modelos de lenguaje grandes (LLM) han demostrado la capacidad de generar programas informáticos genéricos, lo que permite comprender la estructura de los programas. Sin embargo, es difícil determinar las verdaderas capacidades de los LLM, especialmente en la búsqueda de tareas que no vieron durante el entrenamiento. Es fundamental determinar si los LLM pueden realmente “entender” los programas de gráficos simbólicos, que generan contenido visual cuando se ejecutan. Definen esta comprensión como la capacidad de comprender el contenido semántico de la imagen renderizada basándose únicamente en la entrada de texto sin procesar del programa. Este método implica responder preguntas sobre el contenido de la imagen sin verla realmente, lo que es fácil con la entrada visual pero mucho más difícil cuando se depende únicamente del texto del programa.

Las investigaciones existentes sobre programas de gráficos simbólicos se han centrado principalmente en el modelado procedimental de formas 2D y geometría 3D. Estos programas, como la geometría sólida constructiva (CSG), el diseño asistido por computadora (CAD) y los gráficos vectoriales escalables (SVG), proporcionan una representación clara e interpretable del contenido visual. Además, los LLM se han aplicado a diversas tareas de programación, como la recuperación de código, las pruebas automatizadas y la generación; sin embargo, la comprensión de los programas de gráficos simbólicos es en gran medida diferente, ya que su significado semántico a menudo se define visualmente. Los puntos de referencia existentes para los LLM se centran en la comprensión de programas no gráficos, mientras que los modelos de lenguaje visual se evalúan utilizando conjuntos de datos multimodales para tareas como subtítulos de imágenes y respuestas visuales a preguntas.

Investigadores del Instituto Max Planck de Sistemas Inteligentes, Tübingen, la Universidad de Cambridge y el MIT han propuesto un nuevo enfoque para evaluar y mejorar la comprensión de los programas de gráficos simbólicos por parte de los estudiantes de maestría en derecho. Se presenta un punto de referencia llamado SGP-Bench para la comprensión semántica de los estudiantes de maestría en derecho y la coherencia en la interpretación de programas SVG (gráficos vectoriales 2D) y CAD (objetos 2D/3D). Además, se desarrolla un nuevo método de ajuste fino basado en un conjunto de datos recopilados de seguimiento de instrucciones llamado ajuste de instrucciones simbólicas para mejorar el rendimiento. Además, el conjunto de datos simbólicos MNIST creado por los investigadores muestra diferencias importantes entre la comprensión de los programas de gráficos simbólicos por parte de los estudiantes de maestría en derecho y la comprensión humana.

El proceso de construcción de un punto de referencia para evaluar la comprensión de los programas de gráficos simbólicos por parte de los estudiantes de maestría utiliza un proceso escalable y eficiente. Utiliza un potente modelo de visión-lenguaje (GPT-4o) para generar preguntas semánticas basadas en imágenes renderizadas de los programas simbólicos. Además, los anotadores humanos verifican la calidad y la precisión de estos pares de preguntas y respuestas generados automáticamente. Este enfoque reduce el esfuerzo manual necesario en comparación con los métodos tradicionales de creación de datos. El proceso para los programas SVG y CAD 2D es sencillo, ya que producen directamente imágenes 2D, pero en los programas CAD 3D, los modelos 3D se convierten primero en imágenes 2D desde múltiples posiciones fijas de la cámara.

La evaluación de la comprensión de los programas de gráficos simbólicos por parte de los LLM se realiza en el conjunto de datos SGP-MNIST, que consta de 1000 programas SVG que representan imágenes de dígitos similares a MNIST, con 100 programas por dígito (0-9). Si bien los humanos pueden reconocer fácilmente las imágenes, a los LLM les resultó extremadamente difícil interpretar los programas simbólicos. Incluso el modelo avanzado GPT-4o tuvo un rendimiento apenas superior al de las suposiciones aleatorias. Este marcado contraste entre el rendimiento humano y el de los LLM destaca una brecha significativa en la forma en que las máquinas procesan y entienden las representaciones simbólicas de la información visual en comparación con los humanos.

En conclusión, los investigadores presentan una nueva forma de evaluar a los LLM, evaluando su capacidad para comprender imágenes directamente desde sus programas de gráficos simbólicos sin entrada visual. Los investigadores crearon el SGP-Bench, un punto de referencia que mide eficazmente el desempeño de los LLM en esta tarea. También introdujeron el ajuste fino de instrucciones simbólicas (SIT) para mejorar la capacidad de los LLM para interpretar programas de gráficos. Esta investigación ayuda a proporcionar una imagen más clara de las capacidades de los LLM y promueve la creación de diversas tareas de evaluación. Las investigaciones futuras incluyen investigar cómo los LLM entienden la semántica en esta área y trabajar en el desarrollo de métodos avanzados para mejorar su desempeño en estas tareas.


Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios

Encuentra lo próximo Seminarios web sobre IA aquí



Sajjad Ansari es un estudiante de último año de la carrera de IIT Kharagpur. Como entusiasta de la tecnología, se adentra en las aplicaciones prácticas de la IA, centrándose en comprender el impacto de las tecnologías de IA y sus implicaciones en el mundo real. Su objetivo es articular conceptos complejos de IA de una manera clara y accesible.