Operai presenta GDPVAL: un nuevo conjunto de evaluación que mide la IA en tareas económicamente valiosas del mundo real

Openai introdujo GDPVAL, un nuevo conjunto de evaluación diseñado para medir cómo los modelos de IA funcionan en tareas económicamente valiosas en el mundo real en 44 ocupaciones en nueve sectores estadounidenses dominantes del PIB. A diferencia de los puntos de referencia académicos, GDPVal se centra en entregables auténticos (presenciones, hojas de cálculo, calzoncillos, artefactos CAD, audio/video) asignado por expertos ocupacionales a través de comparaciones cegadas por pares. Openai también lanzó un subconjunto “Gold” de 220 tareas y un alumno automatizado experimental alojado en evals.openai.com.

Desde puntos de referencia hasta Billables: cómo GDPVal construye tareas

GDPVAL agregue 1.320 tareas obtenidas de profesionales de la industria que promedian 14 años de experiencia. Las tareas se asignan a O*Net Work Activitions e incluyen manejo de archivos multimodal (documentos, diapositivas, imágenes, audio, video, hojas de cálculo, CAD), con hasta docenas de archivos de referencia por tarea. El subconjunto de oro proporciona indicaciones públicas y referencias; La puntuación primaria aún se basa en juicios por pares expertos debido a la subjetividad y los requisitos de formato.

https://openai.com/index/gdpval/

Lo que dicen los datos: modelo versus experto

En el subconjunto GOLD, los modelos fronterizos se acercan a la calidad de los expertos en una fracción sustancial de tareas bajo revisión de expertos ciegos, con el progreso del modelo que tenden tendencia linealmente en todo el lanzamiento. Las tasas de victorias/corbatas de modelo-VS-Human informadas cerca de la paridad para los mejores modelos, los perfiles de error se agrupan en torno al seguimiento de las instrucciones, el formato, el uso de datos y las alucinaciones. El mayor esfuerzo de razonamiento y el andamio más fuerte (por ejemplo, verificaciones de formato, representación de artefactos para la autoinspección) producen ganancias predecibles.

Matemáticas de tiempo -costo: donde la IA vale la pena

GDPVAL ejecuta análisis de escenarios que comparan flujos de trabajo asistidos por el modelo solo con la revisión de expertos. Cuantifica (i) tiempo de finalización humano y costo basado en el salario, (ii) tiempo/costo del revisor, (iii) latencia del modelo y costo de API, y (iv) tasas de victorias observadas empíricamente. Los resultados indican reducciones potenciales de tiempo/costos para muchas clases de tareas una vez que se incluye la revisión de gastos generales.

Jueces automatizado: proxy útil, no Oracle

Para el subconjunto GOLD, un grado automatizado de grado por pares muestra ~ 66% de acuerdo con expertos humanos, dentro de ~ 5 puntos porcentuales de acuerdo humano -humano (~ 71%). Está posicionado como un proxy de accesibilidad para la iteración rápida, no un reemplazo para la revisión de expertos.

https://openai.com/index/gdpval/

Por qué este no es otro punto de referencia

Aprometa ocupacional: abarca los mejores sectores del PIB y una amplia porción de actividades de trabajo netas, no solo dominios estrechos. Realismo entregable: entradas múltiples y múltiples entradas/salidas Estructura de estrés, formato y manejo de datos. Techo en movimiento: utiliza la tasa de victorias de preferencia humana contra los entregables de expertos, lo que permite el reinscural a medida que mejoran los modelos.

Condiciones de contorno: donde GDPVAL no alcanza

GDPVAL-V0 se dirige al trabajo de conocimiento mediado por computadora. El trabajo físico, la interactividad del horizonte largo y las herramientas específicas de la organización están fuera de alcance. Las tareas son de una sola vez y se especifican con precisión; Las ablaciones muestran caídas de rendimiento con un contexto reducido. La construcción y la calificación son intensivas en recursos, motivando al alumno automático, cuyos límites están documentados, y la expansión futura.

Ajustar en la pila: cómo gdpval complementa otras evals

GDPVAL aumenta las Evalias OpenAI existentes con tareas ocupacionales, multimodales, centradas en el archivo e informa los resultados de preferencias humanas, los análisis de tiempo/costos y las ablaciones sobre el esfuerzo de razonamiento y el andamio de los agentes. V0 es versión y se espera que amplíe la cobertura y el realismo con el tiempo.

Resumen

GDPVAL formaliza la evaluación para el trabajo de conocimiento económicamente relevante mediante el emparejamiento de tareas construidas por expertos con juicios de preferencias humanas cegadas y un calificador automatizado accesible. El marco cuantifica la calidad del modelo y las compensaciones prácticas de tiempo/costos al tiempo que expone los modos de falla y los efectos del esfuerzo de andamios y razonamiento. El alcance sigue siendo V0, tareas de una sola vez con una revisión de expertos), pero establece una línea de base reproducible para rastrear las ganancias de capacidad del mundo real en las ocupaciones.

Consulte el documento, los detalles técnicos y el conjunto de datos en la cara de abrazo. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial