¿Cómo manejan los modelos de lenguaje las instrucciones conflictivas en un mensaje?
Disonancia cognitiva es un término psicológico que describe el malestar mental que experimenta una persona que tiene dos o más creencias contradictorias. Por ejemplo, si estás en el supermercado y ves una fila de cajas con “10 artículos o menos”, pero todos en la fila tienen 10 artículos o más, ¿qué se supone que debes hacer?
En el contexto de la IA, quería saber cómo los grandes modelos de lenguaje (LLM) abordan la disonancia cognitiva en forma de instrucciones contradictorias (por ejemplo, pedirle a un LLM que traduzca del inglés al coreano, pero dar ejemplos de traducciones del inglés al francés).
En este artículo, realizo experimentos proporcionando a los LLM información contradictoria para determinar con cuál de las informaciones contradictorias es más probable que se alineen.
Como usuario, puedes indicarle a un LLM qué hacer de una de tres maneras:
- Describir directamente la tarea en el mensaje del sistema
- Describiendo directamente la tarea en el modo normal…