Anthropic AI lanza Petri: un marco de código abierto para auditoría automatizada mediante el uso de agentes de IA para probar el comportamiento de modelos objetivo en diversos escenarios
¿Cómo se auditan los LLM de frontera para detectar comportamientos desalineados en entornos realistas de uso de herramientas de múltiples turnos, a escala y más allá de puntuaciones agregadas aproximadas?…