OpenAI presenta IndQA: un punto de referencia consciente de la cultura para las lenguas indias

¿Cómo podemos probar de manera confiable si los modelos lingüísticos grandes realmente comprenden las lenguas y la cultura indias en contextos del mundo real? OpenAI ha lanzado IndQA, un punto de referencia que evalúa qué tan bien los modelos de IA entienden y razonan sobre preguntas importantes en idiomas indios en todos los dominios culturales.

¿Por qué IndQA?

OpenAI afirma que alrededor del 80 por ciento de las personas en todo el mundo no hablan inglés como idioma principal. Sin embargo, la mayoría de los puntos de referencia que miden las capacidades no inglesas siguen siendo limitados y a menudo dependen de la traducción o formatos de opción múltiple.

Los puntos de referencia como MMMLU y MGSM ahora están cerca de la saturación en el extremo superior, donde los modelos fuertes se agrupan cerca de puntuaciones similares. Esto dificulta ver un progreso significativo y no prueba si los modelos comprenden el contexto local, la historia y la vida cotidiana.

India es el punto de partida de OpenAI para nuevos puntos de referencia centrados en la región. India tiene alrededor de mil millones de personas que no utilizan el inglés como idioma principal, 22 idiomas oficiales de los cuales al menos 7 son hablados por más de 50 millones de personas y es el segundo mercado más grande de ChatGPT.

Conjunto de datos, idiomas y dominios

IndQA evalúa el conocimiento y el razonamiento sobre la cultura india y la vida cotidiana en lenguas indias. El punto de referencia abarca 2278 preguntas en 12 idiomas y 10 dominios culturales, creado con 261 expertos en el dominio de toda la India.

Los dominios culturales son Arquitectura y Diseño, Arte y Cultura, Vida Cotidiana, Comida y Cocina, Historia, Derecho y Ética, Literatura y Lingüística, Medios y Entretenimiento, Religión y Espiritualidad, y Deportes y Recreación. Los artículos están escritos de forma nativa en bengalí, inglés, hindi, hinglish, kannada, marathi, odia, telugu, gujarati, malayalam, punjabi y tamil. Se incluye hinglish para reflejar el cambio de código común en las conversaciones indias.

Cada punto de datos contiene cuatro componentes, un mensaje con base cultural en un idioma indio, una traducción al inglés para auditabilidad, criterios de rúbrica para calificar y una respuesta ideal que codifica las expectativas de los expertos.

Canal de evaluación basado en rúbricas

IndQA utiliza un procedimiento de calificación basado en rúbricas en lugar de precisión de coincidencia exacta. Para cada pregunta, los expertos en el dominio definen múltiples criterios que describen lo que debe incluir o evitar una respuesta sólida y asignan un peso a cada criterio.

Un evaluador basado en modelos verifica la respuesta del candidato con respecto a estos criterios y califica cuáles se cumplen. La puntuación final es la suma de las ponderaciones de los criterios satisfechos dividida por la puntuación total posible. Esto se comporta como calificar la respuesta breve de un examen, respalda el crédito parcial y captura los matices y la corrección cultural, no solo la superposición superficial de tokens.

https://openai.com/index/introduciendo-indqa/

Proceso de construcción y filtrado adversario

OpenAI describe un proceso de construcción de cuatro pasos:

Primero, se asociaron con organizaciones de la India para reclutar expertos en 10 dominios. Estos expertos son hablantes nativos del idioma de destino y del inglés y tienen una profunda experiencia en el tema. Escribieron temas difíciles y llenos de razonamiento anclados en el contexto regional, como literatura, historia alimentaria, derecho o medios de comunicación.

En segundo lugar, aplicaron un filtrado adversario. Cada borrador de pregunta se evaluó con los modelos más potentes de OpenAI en el momento de su creación, GPT-4o, OpenAI o3, GPT-4.5 y, parcialmente después del lanzamiento público, GPT-5. Sólo se mantuvieron las preguntas en las que la mayoría de estos modelos no lograron producir respuestas aceptables. Esto preserva el margen para que futuras mejoras del modelo se muestren claramente en IndQA.

En tercer lugar, los expertos proporcionaron criterios detallados para calificar cada pregunta, similares a las rúbricas de un examen. Estos criterios se reutilizan cada vez que se evalúa otro modelo en IndQA.

En cuarto lugar, los expertos escribieron respuestas ideales y traducciones al inglés y luego realizaron revisiones por pares y revisiones iterativas hasta que aprobaron la calidad.

Medición del progreso en las lenguas indias

OpenAI utiliza IndQA para evaluar modelos de frontera recientes y registrar el progreso de los últimos dos años en las lenguas indias. Informan que el rendimiento del modelo ha mejorado significativamente en IndQA y, al mismo tiempo, deja un margen sustancial de mejora. Los resultados están estratificados por idioma y dominio e incluyen comparaciones de GPT-5 Thinking High con otros sistemas fronterizos.

Conclusiones clave

IndQA es un punto de referencia índico con base cultural: IndQA evalúa qué tan bien los modelos de IA entienden y razonan sobre preguntas importantes en idiomas indios, en dominios culturalmente específicos, en lugar de solo probar la traducción o la precisión de las opciones múltiples. El conjunto de datos está elaborado por expertos y es razonablemente grande: el punto de referencia contiene 2278 preguntas en 12 idiomas y 10 dominios culturales, desarrollado en colaboración con 261 expertos en dominios de toda la India, que cubren áreas como arquitectura, vida cotidiana, comida, historia y religión. La evaluación se basa en rúbricas, no en una coincidencia exacta: cada punto de datos incluye una indicación en el idioma nativo, una traducción al inglés, una rúbrica de calificación detallada y una respuesta ideal, y los resultados del modelo se califican mediante un sistema basado en modelos que verifica los criterios ponderados definidos por expertos, lo que permite un crédito parcial y una evaluación cultural matizada. Las preguntas se filtran de manera adversaria contra los modelos más sólidos de OpenAI: los borradores de preguntas se filtraron ejecutando GPT 4o, OpenAI o3, GPT 4.5 y parcialmente GPT 5, y manteniendo solo aquellos elementos en los que la mayoría de estos modelos fallaron, lo que preserva el margen para futuros modelos en IndQA.

IndQA es un paso oportuno porque apunta a una brecha real: la mayoría de los puntos de referencia multilingües existentes sobre el índice de contenido en inglés y tareas de estilo de traducción, mientras que la India tiene diversos idiomas con altos y bajos recursos. IndQA ofrece una evaluación basada en rúbricas seleccionada por expertos para preguntas que son importantes en los contextos culturales de la India, y utiliza filtrado contradictorio contra GPT 4o, OpenAI o3, GPT 4.5 y GPT 5 para preservar el margen de maniobra para los modelos de frontera. Este lanzamiento convierte a IndQA en una práctica estrella del norte para evaluar el razonamiento del idioma indio en los sistemas de inteligencia artificial modernos.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.