Medición del progreso hacia la AGI: un marco cognitivo

Para comprender las capacidades de la IA en todas estas capacidades cognitivas, proponemos un protocolo de evaluación de tres etapas que compara el rendimiento del sistema en relación con las capacidades humanas:

Evaluar sistemas de IA en un amplio conjunto de tareas cognitivas que cubren cada habilidad, utilizando conjuntos de pruebas disponibles para evitar la contaminación de datos. Recopilar líneas de base humanas para las mismas tareas de una muestra demográficamente representativa de adultos. Mapear el desempeño de cada sistema de IA en relación con la distribución del desempeño humano en cada habilidad.

Pasando de la teoría a la práctica

Definir estas capacidades cognitivas es un primer paso crucial, pero necesitamos más que un marco para medir el progreso. Para poner esta teoría en práctica, estamos lanzando un nuevo hackathon de Kaggle: “Medición del progreso hacia AGI: habilidades cognitivas”. El hackathon alienta a la comunidad a diseñar evaluaciones para cinco habilidades cognitivas donde la brecha de evaluación es mayor: aprendizaje, metacognición, atención, funciones ejecutivas y cognición social.

Los participantes pueden utilizar la plataforma Community Benchmarks recientemente lanzada de Kaggle para crear y probar sus evaluaciones frente a una gama de modelos de vanguardia.

Estamos ofreciendo un premio total de $200 000: premios de $10 000 para las dos mejores presentaciones en cada una de las cinco pistas y grandes premios de $25 000 para las cuatro mejores presentaciones generales. Las presentaciones están abiertas del 17 de marzo al 16 de abril y anunciaremos los resultados el 1 de junio. Dirígete al sitio web de Kaggle para comenzar a construir.

Medición del progreso hacia la AGI: un marco cognitivo

ByEquipo de 7 minutos

Pasando de la teoría a la práctica

By Equipo de 7 minutos

Related Post

Google AI lanza diagnóstico automático: un sistema basado en LLM de modelo de lenguaje grande para diagnosticar fallas en las pruebas de integración a escala

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

You missed

¿Encontró una zarigüeya bebé sola? Domine estos pasos de rescate y encuentre rápidamente un rehabilitador de vida silvestre

VinFast firma asociaciones con 14 distribuidores de scooters eléctricos en Filipinas, acelerando la expansión de la red a nivel nacional

Pescadores versus Ecologistas – Noticias Costa Tropical Gazette

¿Kyle Cooke y Meghan King están saliendo? Lo que sabemos sobre su estado – Hollywood Life