Anthropic AI lanza Bloom: un marco agente de código abierto para evaluaciones de comportamiento automatizadas de modelos de inteligencia artificial fronterizos

Anthropic ha lanzado Bloom, un marco agente de código abierto que automatiza evaluaciones de comportamiento para modelos de inteligencia artificial fronterizos. El sistema toma un comportamiento específico del investigador y crea evaluaciones específicas que miden con qué frecuencia y con qué fuerza ese comportamiento aparece en escenarios realistas.

¿Por qué florecer?

Las evaluaciones de comportamiento para seguridad y alineación son costosas de diseñar y mantener. Los equipos deben presentar escenarios creativos, realizar muchas interacciones, leer transcripciones largas y sumar puntuaciones. A medida que los modelos evolucionan, los viejos puntos de referencia pueden volverse obsoletos o filtrarse en los datos de entrenamiento. El equipo de investigación de Anthropic enmarca esto como un problema de escalabilidad: necesitan una forma de generar nuevas evaluaciones de comportamientos desalineados más rápido y al mismo tiempo mantener las métricas significativas.

Bloom apunta a esta brecha. En lugar de un punto de referencia fijo con un pequeño conjunto de indicaciones, Bloom desarrolla un conjunto de evaluación a partir de una configuración inicial. La semilla ancla qué comportamiento estudiar, cuántos escenarios generar y qué estilo de interacción utilizar. Luego, el marco produce escenarios nuevos pero de comportamiento consistente en cada ejecución, al tiempo que permite la reproducibilidad a través de la semilla registrada.

https://www.anthropic.com/research/bloom

Configuración de semillas y diseño del sistema.

Bloom se implementa como una canalización de Python y se publica bajo la licencia MIT en GitHub. La entrada principal es la “semilla” de evaluación, definida en seed.yaml. Este archivo hace referencia a una clave de comportamiento en comportamientos/behaviors.json, transcripciones de ejemplo opcionales y parámetros globales que dan forma a toda la ejecución.

Los elementos de configuración clave incluyen:

Comportamiento, un identificador único definido en Comportamientos.json para el comportamiento objetivo, por ejemplo ejemplos de adulación o autoconservación, cero o más transcripciones de algunos disparos almacenadas en comportamientos/ejemplos/evaluaciones totales, el número de lanzamientos a generar en la suite rollout.target, el modelo bajo evaluación, como controles claude-sonnet-4 como diversidad, max_turns, modalidad, esfuerzo de razonamiento y cualidades de juicio adicionales.

Bloom utiliza LiteLLM como backend para llamadas API de modelos y puede comunicarse con modelos Anthropic y OpenAI a través de una única interfaz. Se integra con pesos y sesgos para grandes barridos y exportaciones. Inspecciona transcripciones compatibles.

Pipeline agente de cuatro etapas

El proceso de evaluación de Bloom está organizado en cuatro etapas de agentes que se ejecutan en secuencia:

Agente comprensivo: este agente lee la descripción del comportamiento y las conversaciones de ejemplo. Crea un resumen estructurado de lo que se considera un ejemplo positivo del comportamiento y por qué este comportamiento es importante. Atribuye tramos específicos en los ejemplos a demostraciones de comportamiento exitosas para que las etapas posteriores sepan qué buscar. Agente de ideación: La etapa de ideación genera escenarios de evaluación de candidatos. Cada escenario describe una situación, la personalidad del usuario, las herramientas a las que puede acceder el modelo objetivo y cómo se ve una implementación exitosa. Bloom genera escenarios por lotes para utilizar los presupuestos simbólicos de manera eficiente y utiliza el parámetro de diversidad para compensar entre escenarios más distintos y más variaciones por escenario. Agente de implementación: el agente de implementación crea una instancia de estos escenarios con el modelo de destino. Puede ejecutar conversaciones de varios turnos o entornos simulados y registra todos los mensajes y llamadas de herramientas. Los parámetros de configuración como max_turns, modalidad y no_user_mode controlan qué tan autónomo es el modelo de destino durante esta fase. Agentes de juicio y metajuicio: un modelo de juez califica cada transcripción según la presencia de comportamiento en una escala numérica y también puede calificar cualidades adicionales como el realismo o la contundencia del evaluador. Luego, un metajuez lee resúmenes de todas las implementaciones y produce un informe a nivel de suite que destaca los casos y patrones más importantes. La métrica principal es una tasa de obtención, la proporción de implementaciones que obtienen una puntuación de al menos 7 sobre 10 en presencia de comportamiento.

Validación en modelos de frontera.

Anthropic utilizó a Bloom para construir cuatro conjuntos de evaluación relevantes de alineación, para adulación delirante, sabotaje de horizontes a largo plazo, autoconservación y sesgo autopreferencial. Cada conjunto contiene 100 implementaciones distintas y se repite tres veces en 16 modelos fronterizos. Los gráficos informados muestran la tasa de obtención con barras de error de desviación estándar, utilizando Claude Opus 4.1 como evaluador en todas las etapas.

Bloom también se prueba en “organismos modelo” intencionalmente desalineados de trabajos de alineación anteriores. A través de 10 comportamientos extravagantes, Bloom separa el organismo del modelo de producción básico en 9 casos. En el resto de la peculiaridad de la autopromoción, la inspección manual muestra que el modelo de referencia muestra una frecuencia de comportamiento similar, lo que explica la superposición de puntuaciones. Un ejercicio de validación separado compara las etiquetas humanas en 40 transcripciones con 11 modelos de jueces candidatos. Claude Opus 4.1 alcanza una correlación de Spearman de 0,86 con puntuaciones humanas, y Claude Sonnet 4.5 alcanza 0,75, con una concordancia especialmente fuerte en puntuaciones altas y bajas donde los umbrales importan.

https://alignment.anthropic.com/2025/bloom-auto-evals/

Relación con Petri y posicionamiento

Anthropic posiciona a Bloom como complementario de Petri. Petri es una herramienta de auditoría de amplia cobertura que toma instrucciones iniciales que describen muchos escenarios y comportamientos, luego utiliza agentes automatizados para probar modelos a través de interacciones de múltiples turnos y resumir diversas dimensiones relevantes para la seguridad. En cambio, Bloom parte de una definición de comportamiento y automatiza la ingeniería necesaria para convertirla en un conjunto de evaluación grande y específico con métricas cuantitativas como la tasa de obtención.

Conclusiones clave

Bloom es un marco agente de código abierto que convierte una única especificación de comportamiento en un conjunto completo de evaluación de comportamiento para modelos grandes, utilizando un proceso de cuatro etapas de comprensión, ideación, implementación y juicio. El sistema está impulsado por una configuración inicial en seed.yaml y conducts/behaviors.json, donde los investigadores especifican el comportamiento objetivo, transcripciones de ejemplo, evaluaciones totales, modelo de implementación y controles como diversidad, turnos máximos y modalidad. Bloom confía en LiteLLM para el acceso unificado a modelos Anthropic y OpenAI, se integra con Weights and Biases para el seguimiento de experimentos y exporta JSON compatible con Inspect además de un visor interactivo para inspeccionar transcripciones y partituras. Anthropic valida a Bloom en 4 comportamientos centrados en la alineación en 16 modelos de frontera con 100 implementaciones repetidas 3 veces y en 10 peculiaridades de organismos modelo, donde Bloom separa organismos intencionalmente desalineados de los modelos de referencia en 9 casos y los modelos de jueces coinciden con etiquetas humanas con una correlación de Spearman de hasta 0,86.

Consulte el repositorio, el informe técnico y el blog de Github. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.