Google AI presenta entrenamiento de coherencia para modelos de lenguaje más seguros bajo indicaciones de estilo adulador y jailbreak
¿Cómo puede el entrenamiento de coherencia ayudar a los modelos lingüísticos a resistir indicaciones aduladoras y ataques estilo jailbreak manteniendo intactas sus capacidades? Los modelos de lenguaje grandes a menudo…