Biomni-R0: Nuevos LLM de agente entrenados de extremo a extremo con aprendizaje de refuerzo de múltiples vueltas para inteligencia de nivel experto en investigación biomédica

El creciente papel de la IA en la investigación biomédica

El campo de inteligencia artificial biomédica está evolucionando rápidamente, con una creciente demanda de agentes capaces de realizar tareas que abarcan genómica, diagnóstico clínico y biología molecular. Estos agentes no están simplemente diseñados para recuperar hechos; se espera que Razón a través de problemas biológicos complejosinterpretar los datos del paciente y extraer ideas significativas de grandes bases de datos biomédicas. A diferencia de los modelos de IA de uso general, los agentes biomédicos deben interactuar con herramientas específicas del dominio, comprender las jerarquías biológicas y simular flujos de trabajo similares a los de los investigadores para apoyar efectivamente la investigación biomédica moderna.

El desafío central: razonamiento de nivel experto coincidente

Sin embargo, Lograr el rendimiento a nivel de experto En estas tareas está lejos de ser trivial. La mayoría de los modelos de idiomas grandes se quedan cortos cuando se trata de los matices y la profundidad del razonamiento biomédico. Pueden tener éxito en las tareas de recuperación de nivel de superficie o reconocimiento de patrones, pero a menudo fallan cuando se desafían con razonamiento de múltiples pasos, Diagnóstico de enfermedades raraso priorización génicaáreas que requieren no solo acceso de datos, sino también la comprensión contextual y el juicio específico del dominio. Esta limitación ha creado una clara brecha: Cómo capacitar a los agentes de IA biomédicos que pueden pensar y actuar como expertos en dominios.

Por qué los enfoques tradicionales se quedan cortos

Mientras que algunas soluciones aprovechan aprendizaje supervisado en conjuntos de datos biomédicos curados o recuperación de recuperación generación Para las respuestas terrestres en literatura o bases de datos, estos enfoques tienen inconvenientes. A menudo confían indicadores estáticos y comportamientos predefinidos que carecen de adaptabilidad. Además, muchos de estos agentes luchan por ejecutar efectivamente herramientas externas y sus colapso de cadenas de razonamiento cuando se enfrentan a estructuras biomédicas desconocidas. Esta fragilidad los hace mal trajes para entornos dinámicos o de alto riesgodonde la interpretabilidad y la precisión no son negociables.

Biomni-R0: un nuevo paradigma que usa el aprendizaje de refuerzo

Investigadores de la Universidad de Stanford y UC Berkeley introdujo una nueva familia de modelos llamado Biomni-r0construido aplicando Aprendizaje de refuerzo (RL) a una base de agentes biomédicos. Estos modelos, Biomni-r0-8b y Biomni-r0-32bfueron entrenados en un Entorno RL específicamente personalizado para razonamiento biomédicoutilizando tanto tareas anotadas por expertos como una nueva estructura de recompensa. La colaboración combina Stanford’s Agente y plataforma de entorno de Biomni con UC Berkeley’s Infraestructura de aprendizaje de refuerzo de Skyrlcon el objetivo de empujar a los agentes biomédicos más allá de las capacidades a nivel humano.

Estrategia de capacitación y diseño del sistema

La investigación introdujo un proceso de capacitación en dos fases. Primero, usaron ajuste de fino supervisado (SFT) En trayectorias de alta calidad muestreadas desde el soneto Claude-4 utilizando muestreo de rechazo, arrancando efectivamente la capacidad del agente para seguir formatos de razonamiento estructurados. A continuación, ajustaron los modelos usando aprendizaje de refuerzooptimización para dos tipos de recompensas: una para exactitud (por ejemplo, seleccionar el gen o diagnóstico correcto), y otro para formato de respuesta (Por ejemplo, usando etiquetas estructuradas y correctamente).

Para garantizar la eficiencia computacional, el equipo se desarrolló Programación de despliegue asíncrono Eso minimizó los cuellos de botella causados ​​por retrasos de herramientas externas. También expandieron el Longitud de contexto a 64k tokenspermitiendo que el agente administre las largas conversaciones de razonamiento de varios pasos de manera efectiva.

Resultados que superan a los modelos fronterizos

Las ganancias de rendimiento fueron significativas. Biomni-R0-32b logró una puntuación de 0.669un salto del 0.346 del modelo base. Incluso Biomni-r0-8bla versión más pequeña, anotada 0.588superan los modelos de propósito general como Soneto de Claude 4 y GPT-5que son mucho más grandes. Sobre la tarea por tarea, Biomni-R0-32b obtuvo el más alto en 7 de 10 tareasmientras que GPT-5 lideró en 2, y Claude 4 en solo 1. Uno de los resultados más llamativos fue en Diagnóstico de enfermedades rarasdonde alcanzó Biomni-R0-32b 0.67en comparación con Qwen-32b’s 0.03a Más de 20 × mejora. Del mismo modo, en Priorización de variante GWASla puntuación del modelo aumentó de 0.16 a 0.74demostrando el valor del razonamiento específico del dominio.

Diseño de escalabilidad y precisión

La capacitación de grandes agentes biomédicos requiere lidiar con despliegues de recursos que involucran la ejecución de herramientas externas, consultas de bases de datos y evaluación de código. Para administrar esto, el sistema se desacopla ejecución del medio ambiente de inferencia de modelopermitiendo una escala más flexible y reduciendo el tiempo inactivo de GPU. Esta innovación aseguró Uso eficiente de recursosincluso con herramientas que tenían diferentes latencias de ejecución. Las secuencias de razonamiento más largas también demostraron ser beneficiosas. Los modelos entrenados por RL producen constantemente respuestas más largas y estructuradasque se correlacionó fuertemente con un mejor rendimiento, destacando que profundidad y estructura en el razonamiento son indicadores clave de la comprensión de nivel experto en la biomedicina.

Las conclusiones clave de la investigación incluyen:

  • Los agentes biomédicos deben realizar un razonamiento profundono solo recuperación, a través de la genómica, el diagnóstico y la biología molecular.
  • El problema central está logrando el rendimiento de las tareas a nivel de experto, principalmente en áreas complejas como enfermedades raras y priorización génica.
  • Métodos tradicionalesincluidos los modelos supervisados ​​de ajuste y recuperación, a menudo se quedan cortos en términos de robustez y adaptabilidad.
  • Biomni-r0desarrollado por Stanford y UC Berkeley, usa aprendizaje de refuerzo con recompensas basadas en expertos y formato de salida estructurado.
  • El tubería de entrenamiento de dos fasesSFT, seguido de RL, resultó muy efectivo para optimizar el rendimiento y la calidad del razonamiento.
  • Biomni-r0-8b ofrece fuertes resultados con una arquitectura más pequeña, mientras que Biomni-r0-32b Establece nuevos puntos de referencia, superando a Claude 4 y GPT-5 en 7 de 10 tareas.
  • El aprendizaje de refuerzo permitió que el agente generar trazas de razonamiento más largas y coherentesun rasgo clave del comportamiento experto.
  • Este trabajo sienta las bases para Agentes biomédicos súper expertoscapaz de automatizar flujos de trabajo de investigación complejos con precisión.

Mira el Detalle técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.