El Instituto Allen de Inteligencia Artificial (AI2) ha introducido Autods (Descubrimiento autónomo a través de Surprisal), un motor prototipo innovador para el descubrimiento científico autónomo abierto. Distinto de los asistentes de investigación de IA convencionales que dependen de los objetivos o consultas definidas por humanos, los autods genera de forma autónoma, prueban e iteran sobre hipótesis cuantificando y buscando “sorpresa bayesiana”, una medida principalmente de descubrimiento genuino, incluso más allá de lo que los humanos buscan específicamente.
Desde la investigación basada en objetivos hasta la exploración abierta
Los enfoques tradicionales para el descubrimiento científico autónomo (ASD) generalmente giran en torno a responder preguntas de investigación preespecificadas: generar hipótesis relevantes para un problema dado, luego validarlas experimentalmente. Autods sale fundamentalmente de este paradigma. Inspirándose en la exploración impulsada por la curiosidad de los científicos humanos, Autods opera de manera abierta, decide qué preguntas para posar, cual hipótesis para perseguir, y cómo Para desarrollar resultados anteriores, todos sin objetivos predefinidos.
El descubrimiento abierto es inherentemente desafiante, lo que requiere mecanismos para atravesar los vastos espacios de hipótesis y priorizar qué hipótesis merecen la investigación. Para abordar estos desafíos, Autods formaliza el concepto de “sorpresa”, un cambio medible en la creencia sobre una hipótesis antes y después de adquirir evidencia empírica.
Cuantificación de la sorpresa bayesiana a través de modelos de idiomas grandes
En el núcleo de Autods hay un marco novedoso para estimar la sorpresa bayesiana. Para cada hipótesis generada, los modelos de lenguaje grande de última generación (LLM), como GPT-4O, actúan como observadores probabilísticos, provocando su “creencia” sobre la hipótesis (en forma de probabilidades) tanto antes como después de la prueba empírica. Estas distribuciones de creencias, construidas mediante el muestreo de múltiples juicios de la LLM, se modelan con distribuciones beta.
Para detectar un descubrimiento significativo, Autods calcula las distribuciones beta de Kullback-Leibbler (KL) entre las distribuciones beta posteriores (después de la evidencia) y anteriores (antes de la evidencia), una medida formal de sorpresa bayesiana. Críticamente, solo los cambios de creencia que cruzan un umbral de cambio probatorio (por ejemplo, de probable verdadero a falso probable) se tratan como genuinamente sorprendentes, centrando el sistema en descubrimientos sustantivos en lugar de actualizaciones de incertidumbre trivial.
Búsqueda de hipótesis eficiente con MCTS
Explorar el vasto paisaje de hipótesis requiere más que un muestreo ingenuo. Autods aprovecha la búsqueda de árboles de Monte Carlo (MCTS) con un ensanchamiento progresivo para guiar su búsqueda de descubrimientos sorprendentes. Cada nodo en el árbol de búsqueda representa una hipótesis, y las ramas corresponden a nuevas hipótesis condicionadas en hallazgos anteriores. Esta estructura permite que los autods mantengan un equilibrio entre explorar nuevas vías y seguir con clientes potenciales fructíferos.
A diferencia de los métodos de búsqueda codiciosos o de haz que corren el riesgo de que la exageración o la poda prematuramente, MCTS mantiene una alta eficiencia de descubrimiento bajo cálculo fijo. Empíricamente, en 21 conjuntos de datos de dominios como la biología, la economía y la ciencia del comportamiento, los autods superan a las líneas de base de muestreo repetido, codicioso y búsqueda de haz, lo que descubre 5-29% más hipótesis juzgadas por la LLM.
Una arquitectura LLM modular de múltiples agentes
Autods orquesta una serie de agentes especializados de LLM, cada uno responsable de una parte distinta del flujo de trabajo científico autónomo:
- Generación de hipótesis
- Diseño experimental
- Programación y ejecución
- Análisis de resultados y revisión
La deduplicación de hipótesis semánticamente similares utiliza una tubería de agrupación jerárquica: incrustaciones de texto basadas en LLM combinadas con verificaciones de equivalencia semántica por pares, asegura que el conjunto de salida final comprenda solo descubrimientos verdaderamente distintos.
Alineación e interpretación humana
La alineación con la intuición científica humana es un punto de referencia clave. En una evaluación humana estructurada (con revisores que poseen fondos de STEM a nivel de doctorado), el 67% de las hipótesis autods juzgadas sorprendentes también fueron considerados sorprendentes por los expertos en dominios. Además, la métrica sorpresa bayesiana de Autods se alineó más estrechamente con el juicio humano que las métricas proxy, como la “interesante” o “utilidad” prevista.
Curiosamente, la naturaleza y la dirección de los cambios de creencias sorprendentes variaron según el campo científico, iluminando, por ejemplo, que las afirmaciones confirmatorias a menudo requieren evidencia más fuerte para ser convincentemente sorprendente que las nuevas falsificaciones.
Consideraciones prácticas y perspectivas futuras
Autods exhibe una alta implementación y validez experimental, con más del 98% de los descubrimientos evaluados considerados correctamente por revisores humanos. Si bien las tuberías actuales dependen de las LLM basadas en API y, por lo tanto, enfrentan restricciones de latencia, el equipo también exploró una implementación de “búsqueda programática” que ofrece resultados mucho más rápidos, aunque menos ricos conceptualmente ricos.
Aunque Autods es actualmente un prototipo de investigación (con un bosque abierto planificado prospectivamente), su arquitectura y su éxito empírico registran un camino convincente para la ciencia escalable impulsada por la IA.
Conclusión
Autods representa un avance significativo en el razonamiento científico autónomo. Al hacer la transición de la investigación basada en objetivos a la exploración autónoma y basada en la curiosidad, y basarse en su búsqueda en la sorpresa bayesiana, señala el camino hacia futuros sistemas de IA capaces de complementar, acelerar o incluso un descubrimiento científico líder independiente.
Mira el Papel, Página de Github y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto.
Oportunidad de patrocinio: Llegue a los desarrolladores de IA más influyentes en Estados Unidos y Europa. 1M+ lectores mensuales, 500k+ constructores comunitarios, infinitas posibilidades. [Explore Sponsorship]
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.