Evaluación de las vulnerabilidades de los agentes LLM: el punto de referencia AgentHarm para la solidez contra los ataques de jailbreak
La investigación sobre la solidez de los LLM ante los ataques de jailbreak se ha centrado principalmente en aplicaciones de chatbot, donde los usuarios manipulan indicaciones para eludir las medidas…