Por qué es importante el contexto: transformar la evaluación del modelo de IA con consultas contextualizadas

Los usuarios del modelo de lenguaje a menudo hacen preguntas sin suficientes detalles, lo que dificulta entender lo que quieren. Por ejemplo, una pregunta como “¿Qué libro debo leer a continuación?” Depende en gran medida del gusto personal. Al mismo tiempo, “¿Cómo funcionan los antibióticos?” debe responder de manera diferente dependiendo del conocimiento de los antecedentes del usuario. Los métodos de evaluación actuales a menudo pasan por alto este contexto faltante, lo que resulta en juicios inconsistentes. Por ejemplo, una respuesta alabando el café puede parecer bien, pero podría ser inútil o incluso dañino para alguien con una condición de salud. Sin conocer la intención o las necesidades del usuario, es difícil evaluar de manera justa la calidad de respuesta de un modelo.

Investigaciones anteriores se han centrado en generar preguntas de aclaración para abordar la ambigüedad o la falta de información en tareas como preguntas y respuestas, sistemas de diálogo y recuperación de información. Estos métodos tienen como objetivo mejorar la comprensión de la intención del usuario. Del mismo modo, los estudios sobre el seguimiento y la personalización de las instrucciones enfatizan la importancia de adaptar las respuestas a los atributos del usuario, como la experiencia, la edad o las preferencias de estilo. Algunos trabajos también han examinado qué tan bien se adaptan los modelos a diversos contextos y métodos de entrenamiento propuestos para mejorar esta adaptabilidad. Además, los evaluadores basados en modelos de idiomas han ganado tracción debido a su eficiencia, aunque pueden ser sesgados, lo que provocó esfuerzos para mejorar su equidad a través de criterios de evaluación más claros.

Investigadores de la Universidad de Pensilvania, el Instituto Allen para la IA y la Universidad de Maryland, College Park, han propuesto evaluaciones contextualizadas. Este método agrega un contexto sintético (en forma de pares de preguntas y respuestas de seguimiento) para aclarar consultas poco especificadas durante la evaluación del modelo de lenguaje. Su estudio revela que incluir el contexto puede afectar significativamente los resultados de la evaluación, a veces incluso revertir la clasificación de modelos, al tiempo que mejora el acuerdo entre los evaluadores. Reduce la dependencia de las características superficiales, como el estilo, y descubre posibles sesgos en las respuestas de modelo predeterminadas, particularmente hacia contextos extraños (occidentales, educados, industrializados, ricos, democráticos). El trabajo también demuestra que los modelos exhiben sensibilidades variables a diferentes contextos de usuario.

Los investigadores desarrollaron un marco simple para evaluar cómo funcionan los modelos de lenguaje cuando se les dan consultas más claras y contextualizadas. Primero, seleccionaron consultas subestimadas de conjuntos de datos de referencia populares y los enriquecieron agregando pares de respuesta-respuesta de seguimiento que simulan contextos específicos del usuario. Luego recolectaron respuestas de diferentes modelos de idiomas. Hicieron que los evaluadores humanos y de modelos compararon las respuestas en dos entornos: una con solo la consulta original y otra con el contexto adicional. Esto les permitió medir cómo el contexto afecta las clasificaciones de modelos, el acuerdo de evaluación y los criterios utilizados para el juicio. Su configuración ofrece una forma práctica de probar cómo los modelos manejan la ambigüedad del mundo real.

Agregar contexto, como la intención del usuario o la audiencia, mejora enormemente la evaluación del modelo, aumenta el acuerdo entre evaluadores en un 3-10% e incluso reversa las clasificaciones de modelos en algunos casos. Por ejemplo, GPT-4 superó a Gemini-1.5-flash solo cuando se proporcionó contexto. Sin él, las evaluaciones se centran en el tono o la fluidez, mientras que el contexto cambia la atención a la precisión y la ayuda. Las generaciones predeterminadas a menudo reflejan sesgos de audiencia occidental, formal y general, lo que las hace menos efectivas para diversos usuarios. Los puntos de referencia actuales que ignoran el riesgo de contexto producen resultados poco confiables. Para garantizar la equidad y la relevancia del mundo real, las evaluaciones deben emparejar las indicaciones ricas en contexto con las rúbricas de puntuación coincidentes que reflejan las necesidades reales de los usuarios.

En conclusión, muchas consultas de usuarios a los modelos de idiomas son vagas, sin un contexto clave como la intención del usuario o la experiencia. Esto hace que las evaluaciones estén subjetivas y poco confiables. Para abordar esto, el estudio propone evaluaciones contextualizadas, donde las consultas se enriquecen con preguntas y respuestas de seguimiento relevantes. Este contexto adicional ayuda a cambiar el enfoque de rasgos a nivel de superficie a criterios significativos, como la ayuda, e incluso puede revertir las clasificaciones de modelos. También revela sesgos subyacentes; Los modelos a menudo por defecto a supuestos extraños (occidentales, educados, industrializados, ricos, democráticos). Si bien el estudio utiliza un conjunto limitado de tipos de contexto y se basa en parte en la puntuación automatizada, ofrece un caso sólido para más evaluaciones conscientes del contexto en el trabajo futuro.

Mira el Papel, Código, Conjunto de datos y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Suscríbete ahora a nuestro boletín de IA


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.