Investigadores de la Universidad de Pensilvania han desarrollado un marco de aprendizaje automático para medir la eficacia de las funciones de IA basadas en la visión mediante la realización de una batería de pruebas en ChatGPT-Vision de OpenAI

El modelo GPT-Vision ha llamado la atención de todos. La gente está entusiasmada con su capacidad para comprender y generar contenido relacionado con texto e imágenes. Sin embargo, existe un desafío: no sabemos exactamente en qué es bueno GPT-Vision y en qué se queda corto. Esta falta de comprensión puede ser riesgosa, principalmente si el modelo se utiliza en áreas críticas donde los errores podrían tener consecuencias graves.

Tradicionalmente, los investigadores evalúan modelos de IA como GPT-Vision recopilando datos extensos y utilizando métricas automáticas para la medición. Sin embargo, los investigadores introducen un enfoque alternativo: un análisis basado en ejemplos. En lugar de analizar grandes cantidades de datos, la atención se centra en una pequeña cantidad de ejemplos específicos. Este enfoque se considera científicamente riguroso y ha demostrado ser eficaz en otros campos.

Para abordar el desafío de comprender las capacidades de GPT-Vision, un Un equipo de investigadores de la Universidad de Pensilvania ha propuesto un método de IA formalizado inspirado en las ciencias sociales y la interacción persona-computadora. Este método basado en aprendizaje automático proporciona un marco estructurado para evaluar el rendimiento del modelo, enfatizando una comprensión profunda de su funcionalidad en el mundo real.

El método de evaluación sugerido consta de cinco etapas: recopilación de datos, revisión de datos, exploración del tema, desarrollo del tema y aplicación del tema. A partir de la teoría fundamentada y el análisis temático, técnicas establecidas en las ciencias sociales, este método está diseñado para ofrecer conocimientos profundos incluso con un tamaño de muestra relativamente pequeño.

Para ilustrar la eficacia de este proceso de evaluación, los investigadores lo aplicaron a una tarea específica: generar texto alternativo para figuras científicas. El texto alternativo es crucial para transmitir contenido de imágenes a personas con discapacidad visual. El análisis revela que, si bien GPT-Vision muestra capacidades impresionantes, tiende a depender excesivamente de la información textual, es sensible a la redacción rápida y tiene dificultades para comprender las relaciones espaciales.

En conclusión, los investigadores enfatizan que este análisis cualitativo basado en ejemplos no solo identifica limitaciones en GPT-Vision sino que también muestra un enfoque reflexivo para comprender y evaluar nuevos modelos de IA. El objetivo es evitar un posible uso indebido de estos modelos, especialmente en situaciones en las que los errores podrían tener consecuencias graves.

Niharika

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2023/01/1674480782181-Niharika-Singh-264x300.jpg" data-large-file="https://www.marktechpost.com/wp-content/uploads/2023/01/1674480782181-Niharika-Singh-902x1024.jpg"/>

Niharika es pasante de consultoría técnica en Marktechpost. Es estudiante de tercer año y actualmente cursa su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos avances en estos campos.

↗ Tutorial paso a paso sobre ‘Cómo crear aplicaciones LLM que puedan ver, oír y hablar’

Investigadores de la Universidad de Pensilvania han desarrollado un marco de aprendizaje automático para medir la eficacia de las funciones de IA basadas en la visión mediante la realización de una batería de pruebas en ChatGPT-Vision de OpenAI

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

4 nuevas técnicas para maximizar el código Claude

Mejores decisiones a escala: cómo la optimización matemática funciona donde falla la intuición

Xiaomi MiMo y TileRT impulsan un modelo de 1 billón de parámetros que supera los 1000 tokens por segundo en GPU comerciales

You missed

Blueface usa traje y las redes sociales no pueden dejar de reaccionar (Fotos)

4 nuevas técnicas para maximizar el código Claude

¿Qué es una desaceleración de la memoria “normal” y cuándo debería preocuparme?

JD Vance revela secretos para hacer bebés, y es tan asqueroso como parece