El modelo GPT-Vision ha llamado la atención de todos. La gente está entusiasmada con su capacidad para comprender y generar contenido relacionado con texto e imágenes. Sin embargo, existe un desafío: no sabemos exactamente en qué es bueno GPT-Vision y en qué se queda corto. Esta falta de comprensión puede ser riesgosa, principalmente si el modelo se utiliza en áreas críticas donde los errores podrían tener consecuencias graves.
Tradicionalmente, los investigadores evalúan modelos de IA como GPT-Vision recopilando datos extensos y utilizando métricas automáticas para la medición. Sin embargo, los investigadores introducen un enfoque alternativo: un análisis basado en ejemplos. En lugar de analizar grandes cantidades de datos, la atención se centra en una pequeña cantidad de ejemplos específicos. Este enfoque se considera científicamente riguroso y ha demostrado ser eficaz en otros campos.
Para abordar el desafío de comprender las capacidades de GPT-Vision, un Un equipo de investigadores de la Universidad de Pensilvania ha propuesto un método de IA formalizado inspirado en las ciencias sociales y la interacción persona-computadora. Este método basado en aprendizaje automático proporciona un marco estructurado para evaluar el rendimiento del modelo, enfatizando una comprensión profunda de su funcionalidad en el mundo real.
El método de evaluación sugerido consta de cinco etapas: recopilación de datos, revisión de datos, exploración del tema, desarrollo del tema y aplicación del tema. A partir de la teoría fundamentada y el análisis temático, técnicas establecidas en las ciencias sociales, este método está diseñado para ofrecer conocimientos profundos incluso con un tamaño de muestra relativamente pequeño.
Para ilustrar la eficacia de este proceso de evaluación, los investigadores lo aplicaron a una tarea específica: generar texto alternativo para figuras científicas. El texto alternativo es crucial para transmitir contenido de imágenes a personas con discapacidad visual. El análisis revela que, si bien GPT-Vision muestra capacidades impresionantes, tiende a depender excesivamente de la información textual, es sensible a la redacción rápida y tiene dificultades para comprender las relaciones espaciales.
En conclusión, los investigadores enfatizan que este análisis cualitativo basado en ejemplos no solo identifica limitaciones en GPT-Vision sino que también muestra un enfoque reflexivo para comprender y evaluar nuevos modelos de IA. El objetivo es evitar un posible uso indebido de estos modelos, especialmente en situaciones en las que los errores podrían tener consecuencias graves.
Niharika es pasante de consultoría técnica en Marktechpost. Es estudiante de tercer año y actualmente cursa su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos avances en estos campos.