Los grandes modelos multimodales (LMM) destacan en muchas tareas de visión y lenguaje, pero su eficacia debe mejorar en contextos interculturales. Esto se debe a que necesitan contrarrestar el sesgo en sus metodologías y conjuntos de datos de entrenamiento, lo que impide que una rica variedad de elementos culturales se representen adecuadamente en los pies de foto. Superar esta limitación ayudará a que la inteligencia artificial sea más sólida a la hora de abordar tareas culturalmente sensibles y promoverá la inclusión a medida que aumenta su aplicabilidad en entornos globales.

Los LMM de agente único, como BLIP-2 y LLaVA-13b, han sido las herramientas predominantes para los subtítulos de imágenes. Sin embargo, necesitan datos de capacitación más diversos para incorporar profundidad cultural. Estos modelos necesitan capturar las sutilezas de múltiples perspectivas culturales y, por lo tanto, los resultados parecen estereotipados e inespecíficos. Además, las métricas tradicionales de medición, como la precisión y las puntuaciones F1, no capturan la profundidad de la representación cultural, sino que enfatizan la corrección general. Esta debilidad metodológica obstaculiza la capacidad de estos modelos para producir subtítulos que sean significativos y significativos para diferentes audiencias.

Para abordar estos desafíos, investigadores de la Universidad de Michigan y la Universidad de Santa Clara desarrollaron MosAIC, un marco innovador para mejorar los subtítulos de imágenes culturales a través de interacciones colaborativas. Este método utiliza un conjunto de varios agentes que tienen sus propias identidades culturales específicas pero participan en discusiones organizadas y moderadas entre ellos. Su diálogo es recopilado y condensado por un agente resumidor en un título culturalmente mejorado. El marco utiliza un conjunto de datos de 2832 subtítulos de tres culturas diferentes: China, India y Rumania, obtenidos de GeoDE, GD-VCR y CVQA. También utiliza una métrica de evaluación innovadora adaptable a la cultura para evaluar la representación de los componentes culturales en los subtítulos, proporcionando así una herramienta integral para evaluar la calidad de los resultados. Esto establece el punto de referencia al permitir experiencia específica de cada agente y fomentar el aprendizaje iterativo hacia mejores subtítulos que sean precisos y culturalmente más profundos.

El sistema MosAIC opera a través de un mecanismo de interacción de múltiples rondas donde los agentes primero analizan imágenes de forma independiente y luego participan en discusiones colaborativas para refinar sus interpretaciones. Debido a que cada agente aporta su perspectiva cultural única al discurso, aporta riqueza a la representación holística de la imagen. Metodologías elaboradas, incluidas las indicaciones de cadena de pensamiento, permiten a los agentes crear resultados bien estructurados y coherentes. El modelo incluye sistemas de gestión de memoria que se utilizan para seguir la discusión durante varias rondas sin sesgos. El uso de conjuntos de datos geográficamente diversos garantiza que los subtítulos generados abarquen diversas perspectivas culturales, lo que hace que el marco sea aplicable en múltiples contextos.

El marco MosAIC supera significativamente a los modelos de agente único en la producción de subtítulos que son más profundos y culturalmente más completos. Capta diversos términos culturales y los integra muy bien en sus productos, logrando puntuaciones más altas en representación cultural sin dejar de ser consistente con el contenido de las imágenes. Las evaluaciones humanas validan aún más su éxito, mostrando que sus subtítulos se alinean estrechamente con los contextos culturales y superan con creces los modelos convencionales en detalle e inclusión. El marco cooperativo que respalda este sistema es crucial para mejorar su capacidad de reflejar matices culturales y representa un hito en la inteligencia artificial con conciencia cultural.

MosAIC aborda la cuestión crítica del sesgo centrado en Occidente en los LMM mediante la introducción de un marco de colaboración para los subtítulos de imágenes culturales. Lo logra a través de estrategias de interacción innovadoras, conjuntos de datos novedosos y métricas de evaluación especializadas que pueden usarse para producir subtítulos a la vez contextualmente precisos y culturalmente ricos. Este trabajo constituye un paso revolucionario en este campo, sentando las bases para futuros avances en la creación de sistemas de IA inclusivos y globalmente relevantes.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.