En los últimos años, la integración de las tecnologías de generación de imágenes en varias plataformas ha abierto nuevas vías para mejorar las experiencias de los usuarios. Sin embargo, como estos sistemas de IA multimodal, que pueden procesar y generar múltiples formularios de datos como texto e imágenes, expandir, desafíos como la “alucinación de subtítulos”. Este fenómeno ocurre cuando las descripciones de imágenes generadas por IA contienen inexactitudes o detalles irrelevantes, lo que potencialmente disminuye la confianza y la participación del usuario. Los métodos tradicionales para evaluar estos sistemas a menudo dependen de la inspección manual, que no es escalable ni eficiente, destacando la necesidad de herramientas de evaluación automatizadas y confiables adaptadas a aplicaciones de IA multimodales.
Al abordar estos desafíos, Patronus AI ha introducido el primer LLM-As-A-A-Judge de la industria (MLLM-AS-A-Judge), diseñado para evaluar y optimizar los sistemas de IA que convierten las entradas de imágenes en salidas de texto. Esta herramienta utiliza el modelo Gemini de Google, seleccionado por su enfoque de juicio equilibrado y su distribución de puntuación constante, distinguiéndolo de alternativas como el GPT-4V de OpenAI, que ha mostrado niveles más altos de egocentricidad. El MLLM-AS-A-A-Judge se alinea con el compromiso de Patronus AI para avanzar en la supervisión escalable de los sistemas de IA, proporcionando a los desarrolladores los medios para evaluar y mejorar el rendimiento de sus aplicaciones multimodales.
Técnicamente, el Mllm-AS-A-Judge está equipado para procesar y evaluar las tareas de generación de imagen a texto. Ofrece evaluadores incorporados que crean una instantánea de la verdad en tierra de las imágenes analizando atributos como la presencia y ubicación del texto, estructuras de cuadrícula, orientación espacial e identificación de objetos. El conjunto de evaluadores incluye criterios como:
- subtítulos-Describes-Primary-Object
- subtítulos-Desencribidos no primarios
- calucamiento de subtítulos
- subtitular
- subtítulos-menciones-ubicación de objeto
Estos evaluadores permiten una evaluación exhaustiva de los subtítulos de imagen, asegurando que las descripciones generadas reflejen con precisión el contenido visual. Más allá de verificar la precisión de la leyenda, el MLLM-AS-A-Judge se puede utilizar para probar la relevancia de las capturas de pantalla del producto en respuesta a las consultas de los usuarios, validar la precisión de las extracciones de reconocimiento de caracteres ópticos (OCR) para datos tabulares, y evaluar la fidelidad de las imágenes de marca y los logotipos de la marca generados con IA.
Una aplicación práctica de MLLM-AS-A-Judge es su implementación de Etsy, una destacada plataforma de comercio electrónico especializada en productos hechos a mano y vintage. El equipo de IA de Etsy emplea una IA generativa para generar automáticamente subtítulos para imágenes de productos cargadas por vendedores, simplificando el proceso de listado. Sin embargo, encontraron problemas de calidad con sus sistemas de IA multimodales, ya que los subtítulos autogéneados a menudo contenían errores y salidas inesperadas. Para abordar esto, Etsy Integrated Judge-Image, un componente del Mllm-as-a-Judge, para evaluar y optimizar su sistema de subtítulos de imágenes. Esta integración le permitió a Etsy reducir las alucinaciones de los subtítulos, mejorando así la precisión de las descripciones de los productos y mejorando la experiencia general del usuario.
En conclusión, a medida que las organizaciones continúan adoptando y escalando sistemas de IA multimodales, abordar la imprevisibilidad de estos sistemas se vuelve esencial. El MLLM-AS-A-Judge de Patronus AI ofrece una solución automatizada para evaluar y optimizar las aplicaciones de IA de imagen a texto, mitigando problemas como la alucinación de subtítulos. Al proporcionar evaluadores incorporados y aprovechar modelos avanzados como Google Gemini, el MLLM-AS-A-A-Judge permite a los desarrolladores y organizaciones mejorar la confiabilidad y precisión de sus sistemas de IA multimodales, fomentando en última instancia una mayor confianza y compromiso de los usuarios.
Verificar el Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.