Google DeepMind presenta Aletheia: el agente de inteligencia artificial que pasa de las competiciones de matemáticas a los descubrimientos de investigación profesionales totalmente autónomos




El equipo de Google DeepMind presentó Aletheia, un agente de inteligencia artificial especializado diseñado para cerrar la brecha entre las matemáticas de nivel competitivo y la investigación profesional. Si bien los modelos alcanzaron estándares de medalla de oro en la Olimpiada Internacional de Matemáticas (OMI) de 2025, la investigación requiere navegar por una vasta literatura y construir pruebas a largo plazo. Aletheia resuelve esto generando, verificando y revisando soluciones de forma iterativa en lenguaje natural.

https://github.com/google-deepmind/superhuman/blob/main/aletheia/Aletheia.pdf

La Arquitectura: Bucle Agentico

Aletheia funciona con una versión avanzada de Gemini Deep Think. Utiliza un ‘arnés agente’ de tres partes para mejorar la confiabilidad:

Generador: Propone una solución candidata para un problema de investigación. Verificador: mecanismo informal del lenguaje natural que busca defectos o alucinaciones. Revisor: Corrige los errores identificados por el Verificador hasta que se apruebe un resultado final.

Esta separación de funciones es fundamental; Los investigadores observaron que separar explícitamente la verificación ayuda al modelo a reconocer fallas que inicialmente pasa por alto durante la generación.

Hallazgos técnicos clave

El desarrollo de Aletheia reveló varias ideas sobre cómo la IA maneja el razonamiento complejo:

Escalado de tiempo de inferencia: permitir que el modelo realice más cálculos en el momento de una consulta (‘pensar más’) aumenta significativamente la precisión. La versión de enero de 2026 de Deep Think redujo la computación necesaria para problemas de nivel IMO en 100 veces en comparación con la versión 2025. Rendimiento: Aletheia logró una precisión del 95,1 % en el IMO-Proof Bench Advanced, un gran salto con respecto al récord anterior del 65,7 %. También demostró un rendimiento de vanguardia en FutureMath Basic, un punto de referencia interno de ejercicios de nivel de doctorado. Uso de herramientas: para evitar alucinaciones de citas, Aletheia utiliza la búsqueda de Google y la navegación web. Esto le ayuda a sintetizar la literatura matemática del mundo real.

Hitos de la investigación

Aletheia ya ha contribuido a varios hitos revisados ​​por pares:

Totalmente autónomo (Feng26): Aletheia generó un artículo de investigación calculando constantes estructurales llamadas pesos propios sin ninguna intervención humana. Colaborativo (LeeSeo26): el agente proporcionó una hoja de ruta de alto nivel y una estrategia de “panorama general” para demostrar los límites en conjuntos independientes, que los autores humanos luego convirtieron en una prueba rigurosa. Las conjeturas de Erdős: implementadas frente a 700 problemas abiertos, Aletheia encontró 63 soluciones técnicamente correctas y resolvió 4 preguntas abiertas de forma autónoma.

Una taxonomía para la autonomía de la IA

DeepMind propuso un estándar para clasificar las contribuciones matemáticas de la IA, similar a los niveles utilizados para los vehículos autónomos.

Nivel Descripción de autonomía Importancia (ejemplo) Nivel 0 Principalmente humano Novedad insignificante (nivel Olimpiada) Nivel 1 Colaboración humano-IA Novedad menor (Erdős-1051) Nivel 2 Esencialmente autónomo Investigación publicable (Feng26)

El artículo Feng26 está clasificado como Nivel A2, lo que significa que es esencialmente autónomo y de calidad publicable.

Conclusiones clave

Introducción de un agente de IA de grado de investigación: Aletheia es un agente de investigación matemática que va más allá de la resolución a nivel de competencia para generar, verificar y revisar de forma autónoma pruebas matemáticas en lenguaje natural. Está impulsado por una versión avanzada de Gemini Deep Think y un bucle agente que consta de un generador, un verificador y un revisor. Ganancias significativas a través del escalamiento del tiempo de inferencia: Los investigadores de DeepMind descubrieron que permitirle al modelo más “tiempo para pensar” en la inferencia produce ganancias sustanciales en precisión. La versión de enero de 2026 de Deep Think redujo 100 veces la computación requerida para el rendimiento de nivel Olímpico y logró una precisión récord del 95,1 % en IMO-Proof Bench Advanced. Hitos en la investigación autónoma: el sistema logró varias “primicias”, incluido un artículo de investigación (Feng26) generado completamente sin intervención humana sobre geometría aritmética. También resolvió con éxito 4 preguntas abiertas de la base de datos Erdős Conjectures de forma autónoma. Papel fundamental del uso y la verificación de herramientas: para combatir las “alucinaciones”, como la fabricación de citas en papel, Aletheia depende en gran medida de la Búsqueda de Google y de la navegación web. Además, desvincular el paso de verificación del paso de generación resultó esencial para identificar fallas que el modelo pasó por alto inicialmente. Propuesta para una nueva taxonomía de autonomía: el documento sugiere un marco estandarizado para documentar resultados asistidos por IA, presentando ejes para la autonomía (Nivel H al Nivel A) y significado matemático (Nivel 0 al Nivel 4). Esto tiene como objetivo proporcionar transparencia y cerrar la “brecha de evaluación” entre las afirmaciones de IA y los estándares matemáticos profesionales.

Consulte el documento. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.







Artículo anteriorCómo alinear modelos de lenguaje grandes con las preferencias humanas mediante la optimización de preferencias directas, QLoRA y Ultra-Feedback