Anthropic AI lanza Petri: un marco de código abierto para auditoría automatizada mediante el uso de agentes de IA para probar el comportamiento de modelos objetivo en diversos escenarios

¿Cómo se auditan los LLM de frontera para detectar comportamientos desalineados en entornos realistas de uso de herramientas de múltiples turnos, a escala y más allá de puntuaciones agregadas aproximadas? Anthropic lanzó Petri (Herramienta de exploración paralela para interacciones riesgosas), un marco de código abierto que automatiza las auditorías de alineación al orquestar un agente auditor para probar un modelo objetivo a través de interacciones de múltiples turnos aumentadas con herramientas y un modelo de juez para calificar transcripciones en dimensiones relevantes para la seguridad. En un piloto, Petri se aplicó a 14 modelos de frontera utilizando 111 instrucciones iniciales, provocando comportamientos desalineados que incluyen engaño autónomo, subversión de supervisión, denuncia de irregularidades y cooperación con el mal uso humano.

https://alignment.anthropic.com/2025/petri/

¿Qué hace Petri (a nivel de sistemas)?

Petri mediante programación: (1) sintetiza entornos y herramientas realistas; (2) impulsa auditorías de múltiples turnos con un auditor que puede enviar mensajes de usuario, configurar indicaciones del sistema, crear herramientas sintéticas, simular resultados de herramientas, retroceder para explorar ramas, opcionalmente completar previamente las respuestas de destino (permisos de API) y finalizar anticipadamente; y (3) califica los resultados a través de un juez de LLM a través de una rúbrica predeterminada de 36 dimensiones con un visor de transcripciones adjunto.

La pila se basa en el marco de evaluación Inspect del Instituto de Seguridad de IA del Reino Unido, lo que permite la vinculación de roles de auditor, objetivo y juez en la CLI y soporte para las principales API de modelos.

https://alignment.anthropic.com/2025/petri/

Resultados piloto

Anthropic caracteriza el lanzamiento como un piloto de amplia cobertura, no como un punto de referencia definitivo. En el informe técnico, Claude Sonnet 4.5 y GPT-5 “aproximadamente empatan” en cuanto al perfil de seguridad más sólido en la mayoría de las dimensiones, y ambos rara vez cooperan con el mal uso; La página de descripción general de la investigación resume Sonnet 4.5 como ligeramente por delante en la puntuación agregada de “comportamiento desalineado”.

Un estudio de caso sobre denuncia de irregularidades muestra que los modelos a veces escalan a informes externos cuando se les otorga autonomía y amplio acceso, incluso en escenarios enmarcados como inofensivos (por ejemplo, arrojar agua limpia), lo que sugiere sensibilidad a las señales narrativas en lugar de una evaluación calibrada del daño.

Conclusiones clave

Alcance y comportamientos surgieron: Petri se ejecutó en 14 modelos de frontera con 111 instrucciones semilla, lo que provocó engaño autónomo, subversión de supervisión, denuncia de irregularidades y cooperación con el mal uso humano. Diseño del sistema: un agente auditor examina un objetivo en escenarios de múltiples turnos con herramientas aumentadas (enviar mensajes, configurar indicaciones del sistema, crear/simular herramientas, revertir, precompletar, terminar anticipadamente), mientras que un juez califica las transcripciones según una rúbrica predeterminada; Petri automatiza la configuración del entorno hasta el análisis inicial. Encuadre de resultados: en las pruebas piloto, Claude Sonnet 4.5 y GPT-5 empatan aproximadamente en el perfil de seguridad más sólido en la mayoría de las dimensiones; Las puntuaciones son señales relativas, no garantías absolutas. Estudio de caso de denuncia de irregularidades: En ocasiones, los modelos escalaron a informes externos incluso cuando la “incorrección” fue explícitamente benigna (por ejemplo, arrojar agua limpia), lo que indica sensibilidad a las señales narrativas y al encuadre de escenarios. Pila y límites: construido sobre el marco AISI Inspect del Reino Unido; Petri envía código abierto (MIT) con CLI/docs/viewer. Las brechas conocidas incluyen la falta de herramientas de ejecución de código y una posible variación de los jueces; se recomienda la revisión manual y dimensiones personalizadas.

Petri es un marco de auditoría basado en Inspect y con licencia del MIT que coordina un circuito auditor-objetivo-juez, envía 111 instrucciones iniciales y califica transcripciones en 36 dimensiones. El piloto de Anthropic abarca 14 modelos; Los resultados son preliminares, con Claude Sonnet 4.5 y GPT-5 empatados en seguridad. Las lagunas conocidas incluyen la falta de herramientas de ejecución de código y la variación de los jueces; Las transcripciones siguen siendo la evidencia principal.

Consulte el documento técnico, la página de GitHub y el blog técnico. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.

Anthropic AI lanza Petri: un marco de código abierto para auditoría automatizada mediante el uso de agentes de IA para probar el comportamiento de modelos objetivo en diversos escenarios

ByEquipo de 7 minutos

¿Qué hace Petri (a nivel de sistemas)?

Resultados piloto

Conclusiones clave

By Equipo de 7 minutos

Related Post

Lecciones aprendidas después de 8,5 años de aprendizaje automático

Andrew Ng acaba de lanzar OpenWorker: un compañero de trabajo de IA de escritorio local y de código abierto que devuelve entregables terminados en lugar de chatear

Cuando la ciencia de datos nos entristece: la historia de un vuelo con sobreventa

You missed

Cerco judicial | Máxima preocupación en el PSOE con el desarrollo del ‘caso Zapatero’: “Nos lo está poniendo muy difícil”

Diez libros que los fundadores pueden leer junto a la piscina para mejorar sus habilidades mientras se refrescan

Brooke Valentine y Marcus Black revelan que esperan gemelos

Lecciones aprendidas después de 8,5 años de aprendizaje automático