Screenshot 2024 06 06 At 11.36.45 Pm.png

Los modelos de lenguajes grandes (LLM) han avanzado significativamente en los últimos años. Modelos como ChatGPT y GPT-4 permiten a los usuarios interactuar y obtener respuestas en lenguaje natural. Para mejorar la interacción hombre-máquina y la precisión de los LLM, es esencial contar con un método para evaluar estas interacciones de forma dinámica. Si bien los LLM han demostrado capacidades notables para generar texto, los métodos de evaluación convencionales no logran capturar su desempeño en interacciones interactivas hombre-máquina. El método de evaluación actual implica pares estáticos de entradas y salidas, lo que limita la comprensión de las capacidades del modelo de lenguaje.

Investigadores de la Universidad de Cambridge, Cambridge, la Universidad de Oxford, Oxford y el Instituto Tecnológico de Massachusetts, Cambridge, han introducido CheckMate para abordar los desafíos en la evaluación de modelos de lenguaje grandes (LLM), particularmente en su uso como asistentes de resolución de problemas. En ámbitos como las matemáticas, donde la corrección es crucial, el método de evaluación estática limita la precisión y utilidad de los LLM. El método propuesto tiene como objetivo cerrar esta brecha al permitir que los humanos interactúen con los LLM y evalúen su desempeño en escenarios de resolución de problemas en tiempo real, centrándose específicamente en la demostración de teoremas matemáticos a nivel universitario.

Los métodos de evaluación actuales para los LLM se basan predominantemente en evaluaciones estáticas con pares de entrada-salida predefinidos, que son insuficientes para comprender su desempeño en entornos interactivos. Por el contrario, la plataforma CheckMate propuesta facilita evaluaciones dinámicas e interactivas al permitir que los humanos interactúen con los LLM en tareas de resolución de problemas. CheckMate está diseñado para evaluar el desempeño de los LLM en la demostración de teoremas al permitir a los usuarios interactuar con modelos como InstructGPT, ChatGPT y GPT-4. Al recopilar interacciones y evaluaciones en tiempo real de participantes humanos, la plataforma proporciona una comprensión más sofisticada de las capacidades de LLM, particularmente en matemáticas.

La metodología de CheckMate gira en torno a dos enfoques de evaluación clave: calificaciones interactivas estructuradas de varios pasos y evaluación libre basada en instancias. La plataforma recopila datos sobre las interacciones de los usuarios con los LLM, capturando la exactitud y la utilidad percibida de las respuestas generadas. A través de un estudio de cohorte mixta en el que participaron participantes que van desde estudiantes universitarios hasta profesores de matemáticas, CheckMate genera información sobre cómo los humanos utilizan los LLM para resolver problemas e identifica patrones en el comportamiento del usuario. Además, los expertos en el campo realizan estudios de casos para profundizar en las fortalezas y debilidades de los LLM en razonamiento matemático. Los resultados obtenidos de las evaluaciones y estudios de casos de CheckMate contribuyen al desarrollo de una taxonomía de comportamientos de los usuarios y brindan información útil para los profesionales y matemáticos del aprendizaje automático.

En conclusión, el estudio cierra la brecha en la evaluación de los LLM para las respuestas de las máquinas a las interacciones humanas al presentar CheckMate. La plataforma de evaluación interactiva permite la evaluación en tiempo real del desempeño del LLM en tareas de resolución de problemas. Al incorporar retroalimentación e interacción humana, CheckMate ofrece una comprensión más completa de las capacidades de LLM, particularmente en dominios como las matemáticas. El método propuesto destaca la importancia de la evaluación dinámica y la necesidad de colaboración entre los profesionales del ML y los expertos en el dominio. El enfoque de CheckMate puede informar el desarrollo y la implementación de LLM como asistentes de resolución de problemas, enfatizando la importancia de la comunicación calibrada de la incertidumbre, el razonamiento y la concisión en las respuestas del modelo.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.