Google AI Research propone Vantage: un protocolo basado en LLM para medir la colaboración, la creatividad y el pensamiento crítico

Las pruebas estandarizadas pueden indicarle si un estudiante sabe cálculo o puede analizar un pasaje de texto. Lo que no pueden decirle de manera confiable es si ese estudiante puede resolver un desacuerdo con un compañero de equipo, generar ideas genuinamente originales bajo presión o desmantelar críticamente un argumento defectuoso. Estas son las llamadas habilidades duraderas (colaboración, creatividad y pensamiento crítico) y durante décadas se han resistido a una medición rigurosa y escalable. Una nueva investigación de Google Research propone una solución técnicamente novedosa llamada Vantage: grandes modelos de lenguaje orquestados que pueden simular una interacción grupal auténtica y calificar los resultados con una precisión que rivaliza con los evaluadores expertos humanos.

https://services.google.com/fh/files/misc/toward_scalable_measurement_of_durable_skills.pdf

El problema central: validez ecológica versus rigor psicométrico

Para comprender por qué esto es técnicamente interesante, es útil comprender la paradoja de la medición que el equipo de investigación estaba tratando de resolver. Medir eficazmente las habilidades duraderas requiere dos propiedades en conflicto. Por un lado, la evaluación necesita validez ecológica: debe parecer un escenario del mundo real, porque ese es precisamente el contexto en el que se ejercitan estas habilidades. Por otro lado, necesita rigor psicométrico: condiciones estandarizadas, reproducibilidad y estímulos controlables para que las puntuaciones sean comparables entre los examinados.

Esfuerzos anteriores a gran escala, como la evaluación de Resolución Colaborativa de Problemas de PISA 2015, intentaron resolver esto haciendo que los sujetos interactuaran con compañeros de equipo simulados mediante guiones a través de preguntas de opción múltiple. Eso garantiza el control pero sacrifica la autenticidad. Las evaluaciones de persona a persona hacen lo contrario. Los LLM, sostiene el equipo de investigación, están en una posición única para satisfacer ambos requisitos simultáneamente: pueden producir interacciones conversacionales naturales y abiertas al mismo tiempo que se dirigen programáticamente hacia objetivos de evaluación específicos.

El Executive LLM: una capa de coordinación sobre los agentes de IA

La contribución técnicamente más distintiva de esta investigación es la arquitectura Executive LLM. En lugar de generar múltiples agentes LLM independientes (uno por compañero de equipo de IA), el sistema utiliza un único LLM para generar respuestas para todos los participantes de IA en la conversación. Esto es importante por dos razones.

En primer lugar, permite la coordinación. El Executive LLM tiene acceso a la misma rúbrica pedagógica que luego se utilizará para evaluar al participante humano. Utiliza esta rúbrica no sólo de forma pasiva sino también activa, dirigiendo la conversación hacia escenarios que provocan evidencia de habilidades específicas. Por ejemplo, si la dimensión objetivo es la resolución de conflictos, el LLM ejecutivo puede instruir a una de sus personas de IA para que presente un desacuerdo y lo mantenga hasta que el participante humano demuestre (o no demuestre) una estrategia de resolución de conflictos. Esto es funcionalmente análogo a cómo una prueba adaptativa computarizada (CAT) ajusta dinámicamente la dificultad de los elementos en función del rendimiento de carrera del examinado, excepto que aquí los “elementos” son turnos en una conversación en vivo.

En segundo lugar, la línea de base de Agentes Independientes (LLM separados sin coordinación) resultó demostrablemente más débil. Sin orientación, es posible que las conversaciones simplemente no produzcan la evidencia correcta: si los miembros del equipo están naturalmente de acuerdo, no hay conflicto que resolver y la evaluación no aprende nada sobre esa subhabilidad.

Gemini 2.5 Pro se utilizó como modelo subyacente del Executive LLM para los principales experimentos de colaboración, mientras que Gemini 3 impulsó los módulos de creatividad y pensamiento crítico.

Lo que realmente muestran los experimentos

El equipo de investigación reclutó a 188 participantes de entre 18 y 25 años, hablantes nativos de inglés que residían en los Estados Unidos, a través de la plataforma Prolific. Cada participante generó dos conversaciones para un total de 373 transcripciones (tres fueron filtradas por problemas técnicos). Todos los participantes trabajaron en tareas colaborativas (ya sea el diseño de un experimento científico o un debate estructurado) con un grupo de personas de IA, durante 30 minutos por conversación.

Se evaluaron dos subhabilidades de colaboración: Resolución de Conflictos (CR) y Gestión de Proyectos (PM). Las conversaciones fueron calificadas por dos evaluadores pedagógicos humanos de la Universidad de Nueva York y por un evaluador de IA (Gemini 3.0), que calificó cada turno de participante 20 veces. Se declaraba un turno NA si cualquiera de las 20 predicciones arrojaba NA; de lo contrario, la etiqueta final fue el nivel no NA más frecuente entre las 20 ejecuciones. Luego se entrenó un modelo de regresión (lineal para puntuaciones, logístico para decisiones de NA) en estas etiquetas de nivel de turno para producir una puntuación a nivel de conversación, y el desempeño se evaluó mediante validación cruzada de dejar uno fuera.

Los principales resultados son convincentes en múltiples frentes. Las tasas de evidencia a nivel de turno y de conversación para el comportamiento relevante para las habilidades fueron significativamente más altas en las condiciones de LLM Ejecutivo que en la condición de Agentes Independientes en ambas subhabilidades. Las tasas de información a nivel de conversación alcanzaron el 92,4 % para la gestión de proyectos y el 85 % para la resolución de conflictos cuando se utilizó el Executive LLM de habilidades coincidentes. En particular, simplemente decirles a los participantes que se concentraran en una habilidad no tuvo un efecto significativo en las tasas de evidencia (todos p > 0,6), lo que confirma que la dirección debe provenir del lado de la IA.

En cuanto a la precisión de la puntuación, el acuerdo entre evaluadores entre el evaluador de IA y los expertos humanos (medido con el Kappa de Cohen) fue comparable al acuerdo entre humanos, que osciló entre moderado (κ = 0,45–0,64) en ambas habilidades y en ambas tareas de puntuación.

https://services.google.com/fh/files/misc/toward_scalable_measurement_of_durable_skills.pdf

Simulación como entorno de pruebas de desarrollo

Un hallazgo prácticamente útil para los ingenieros de ML que construyen sistemas similares es la validación de la simulación basada en LLM como sustituto de sujetos humanos durante el desarrollo del protocolo. El equipo de investigación utilizó Gemini para simular participantes humanos en niveles de habilidad conocidos (1 a 4 en cada dimensión de la rúbrica), luego midió el error de recuperación: la diferencia absoluta media entre el nivel de verdad fundamental y el nivel inferido del autor. El Executive LLM produjo un error de recuperación significativamente menor que los agentes independientes tanto para CR como para PM. Los patrones cualitativos en los datos simulados coincidieron estrechamente con los de conversaciones humanas reales, lo que sugiere que la simulación basada en rúbricas puede reducir el riesgo del diseño de evaluación antes de la costosa recopilación de datos humanos.

Las tasas de evidencia se extienden a la creatividad y el pensamiento crítico

Para la creatividad y el pensamiento crítico, las tasas de evidencia inicial se evaluaron utilizando sujetos simulados. Los resultados muestran que el Executive LLM superó a los agentes independientes en las 8 dimensiones evaluadas: las seis dimensiones de creatividad (fluidez, originalidad, calidad, desarrollo de ideas, elaboración y selección) y ambas dimensiones de pensamiento crítico (interpretar y analizar; evaluar y juzgar), con todas las diferencias estadísticamente significativas. El equipo de investigación señaló que la recopilación de calificaciones humanas para estas dos habilidades está en curso y los resultados se compartirán en trabajos futuros, pero los resultados de la simulación sugieren que el enfoque Executive LLM se generaliza más allá de la colaboración.

Puntuación de creatividad con correlación de Pearson de 0,88

En una asociación separada con OpenMic, una institución que construye herramientas duraderas de evaluación de habilidades impulsadas por IA, el equipo de investigación evaluó su autorificador de creatividad basado en Gemini en tareas multimedia complejas completadas por 280 estudiantes de secundaria. Las tareas implicaron diseñar un segmento de noticias basado en una historia corta, incluida la producción de preguntas para entrevistas a los personajes. Fundamentalmente, 100 envíos se utilizaron primero para refinar el mensaje de Gemini y las rúbricas pedagógicas de expertos, mientras que los 180 envíos restantes se utilizaron para la evaluación final de la precisión. La puntuación basada en rúbricas realizada por los expertos de OpenMic y el autor de la evaluación coincidió en Kappa de Cohen = 0,66 (buen acuerdo) a nivel de ítem. Más sorprendentemente, cuando se compararon las puntuaciones generales de las presentaciones, la correlación de Pearson entre los totales de los autores y los expertos humanos fue de 0,88, un nivel de acuerdo que es difícil de lograr incluso entre evaluadores humanos en tareas creativas subjetivas.

Cerrando el ciclo de retroalimentación

Más allá de la puntuación, Vantage muestra los resultados a los usuarios a través de un mapa de habilidades cuantitativas que muestra los niveles de competencia en todas las habilidades y subhabilidades, con la opción de profundizar en extractos específicos de la conversación que fundamentan cada puntuación numérica. Esto hace que la evidencia para la evaluación sea transparente y procesable: una consideración de diseño significativa para cualquiera que esté creando procesos de evaluación similares donde la interpretabilidad de las puntuaciones automatizadas sea importante.

Conclusiones clave

Un único ‘LLM ejecutivo’ supera a varios agentes independientes en la evaluación de habilidades: en lugar de ejecutar un LLM por compañero de equipo de IA, Vantage de Google utiliza un único LLM coordinador que genera respuestas para todos los participantes de AI. Esto le permite dirigir activamente las conversaciones utilizando una rúbrica pedagógica (introduciendo conflictos, rechazando ideas o creando cuellos de botella en la planificación) para extraer evidencia observable de habilidades específicas que tal vez nunca surjan de forma natural. La puntuación basada en LLM ahora está a la par de los evaluadores expertos humanos: el acuerdo del evaluador de IA con los evaluadores humanos fue comparable al acuerdo entre dos expertos humanos, que solo alcanzaron un Kappa de Cohen moderado (0,45-0,64) incluso después de múltiples rondas de calibración. Esto posiciona la puntuación LLM automatizada como una alternativa genuinamente escalable a las costosas anotaciones humanas para tareas conversacionales complejas y abiertas. Decir a los usuarios que se concentren en una habilidad no sirve de nada; la dirección tiene que venir del lado de la IA: los participantes a los que se les indicó explícitamente que prestaran atención a la resolución de conflictos o a la gestión de proyectos no mostraron una mejora estadísticamente significativa en las tasas de evidencia (todos p > 0,6) en comparación con aquellos a los que no se les dieron instrucciones. Sólo la dirección activa del Executive LLM produjo datos de evaluación considerablemente más ricos. La simulación de LLM puede servir como una zona de pruebas de bajo costo antes de realizar estudios con humanos reales: al simular participantes con niveles de habilidad conocidos y medir con qué precisión el sistema recuperó esos niveles, el equipo de investigación validó su protocolo de evaluación sin gastar costosos presupuestos de sujetos humanos. Los patrones de conversación simulados y reales fueron cualitativamente similares, lo que lo convierte en un enfoque práctico para iterar rúbricas e indicaciones en las primeras etapas del desarrollo. La puntuación de creatividad de la IA logró una correlación de Pearson de 0,88 con expertos humanos en trabajos reales de estudiantes: en una prueba del mundo real con 180 presentaciones de estudiantes de secundaria, un autorevaluador basado en Gemini igualó las puntuaciones de expertos humanos con una correlación de Pearson de 0,88 en la evaluación general de la creatividad, lo que demuestra que la puntuación automatizada de tareas multimedia complejas y subjetivas no solo es teóricamente posible sino que está validada empíricamente.

Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.