7 trucos de ingeniería rápidos para mitigar las alucinaciones en los LLM
Introducción
Los modelos de lenguaje grande (LLM) exhiben habilidades sobresalientes para razonar, resumir y generar texto de manera creativa. Aún así, siguen siendo susceptibles al problema común de las alucinaciones, que consiste en generar información aparentemente segura pero falsa, no verificable o, a veces, incluso sin sentido.
Los LLM generan texto basado en intrincados patrones estadísticos y probabilísticos en lugar de depender principalmente de la verificación de verdades fundamentadas. En algunos campos críticos, esta cuestión puede causar importantes impactos negativos. La ingeniería de indicaciones sólida, que implica la habilidad de elaborar indicaciones bien estructuradas con instrucciones, limitaciones y contexto, puede ser una estrategia eficaz para mitigar las alucinaciones.
Las siete técnicas enumeradas en este artículo, con ejemplos de plantillas de mensajes, ilustran cómo tanto los LLM independientes como los sistemas de recuperación de generación aumentada (RAG) pueden mejorar su rendimiento y volverse más robustos contra las alucinaciones simplemente implementándolos en las consultas de los usuarios.
1. Fomentar la abstención y las respuestas de “no sé”
Los LLM generalmente se enfocan en brindar respuestas que parezcan seguras incluso cuando no son seguras; consulte este artículo para comprender en detalle cómo los LLM generan texto, generando como resultado, a veces, hechos inventados. Permitir explícitamente la abstención puede guiar al LLM hacia mitigar una sensación de falsa confianza. Veamos un ejemplo de solicitud para hacer esto:
“Usted es un asistente de verificación de datos. Si no está seguro de una respuesta, responda: ‘No tengo suficiente información para responder eso’. Si está seguro, dé su respuesta con una breve justificación”.
El mensaje anterior iría seguido de una pregunta real o una verificación de hechos.
Un ejemplo de respuesta esperada sería:
“No tengo suficiente información para responder eso”.
o
“Con base en la evidencia disponible, la respuesta es… (razonamiento)”.
Esta es una buena primera línea de defensa, pero nada impide que un LLM ignore esas instrucciones con cierta regularidad. Veamos qué más podemos hacer.
2. Razonamiento estructurado en cadena de pensamientos
Pedirle a un modelo de lenguaje que aplique un razonamiento paso a paso incentiva la coherencia interna y mitiga las brechas lógicas que a veces podrían causar alucinaciones en el modelo. La estrategia de razonamiento en cadena de pensamiento (CoT) consiste básicamente en emular un algoritmo, como una lista de pasos o etapas que el modelo debe abordar secuencialmente para abordar la tarea general en cuestión. Una vez más, se supone que la plantilla de ejemplo siguiente va acompañada de un mensaje propio específico del problema.
“Por favor, piense en este problema paso a paso:
1) ¿Qué información se da?
2) ¿Qué supuestos se necesitan?
3) ¿Qué conclusión se sigue lógicamente?”
Un ejemplo de respuesta esperada:
“1) Hechos conocidos: A, B. 2) Supuestos: C. 3) Por lo tanto, conclusión: D.”
3. Puesta a tierra con “Según”
Este rápido truco de ingeniería está concebido para vincular la respuesta buscada a fuentes nombradas. El efecto es desalentar las alucinaciones basadas en invenciones y estimular el razonamiento basado en hechos. Esta estrategia se puede combinar naturalmente con la número 1 discutida anteriormente.
“Según el informe de la Organización Mundial de la Salud (OMS) de 2023, explique los principales impulsores de la resistencia a los antimicrobianos. Si el informe no proporciona suficientes detalles, diga ‘No lo sé'”.
Un ejemplo de respuesta esperada:
“Según la OMS (2023), los principales factores incluyen el uso excesivo de antibióticos, la mala higiene y la venta no regulada de medicamentos. No hay más detalles disponibles”.
4. RAG con instrucción y contexto explícitos
RAG otorga al modelo acceso a una base de conocimientos o una base de documentos que contiene datos de texto verificados o actuales. Aun así, el riesgo de alucinaciones persiste en los sistemas RAG a menos que un mensaje bien elaborado indique al sistema que se base exclusivamente en el texto recuperado.
*[Assume two retrieved documents: X and Y]*
“Usando sólo la información en X e Y, resuma las principales causas de la deforestación en la cuenca del Amazonas y los proyectos de infraestructura relacionados. Si los documentos no cubren un punto, diga ‘datos insuficientes'”.
Un ejemplo de respuesta esperada:
“Según Doc X y Doc Y, las causas clave incluyen la expansión agrícola y la tala ilegal. Para proyectos de infraestructura, datos insuficientes”.
5. Restricciones de producción y alcance limitante
Controlar estrictamente el formato de los resultados generados y su duración contribuye a reducir las alucinaciones en forma de declaraciones especulativas o tangenciales, como afirmaciones de causas sin fundamento, cadenas de razonamiento demasiado elaboradas o estadísticas inventadas, evitando así que los resultados puedan desviarse de los materiales originales.
Restringir los “grados de libertad” en el espacio de respuestas aumenta las probabilidades de devolver información verificable en lugar de llenar los vacíos “sin importar qué”.
“En no más de 100 palabras, resuma el papel de las mitocondrias en las células humanas. Si no está seguro, responda ‘No lo sé'”.
Un ejemplo de respuesta esperada:
“Las mitocondrias generan ATP a través de la fosforilación oxidativa, regulan los niveles de calcio e influyen en la apoptosis. Carezco de datos suficientes sobre funciones adicionales”.
6. Bucles de corrección basados en RAG: cadena de verificación
Este enfoque consiste en combinar la recuperación con la autoverificación, permitiendo que el modelo cuestione y verifique sus propias afirmaciones con fuentes externas de evidencia, principalmente en sistemas RAG. Se dirige principalmente a las alucinaciones debidas al “exceso de confianza”, tratando de mitigarlas.
“Paso 1: Generar una respuesta inicial a la pregunta: ‘¿Cuándo cayó el Muro de Berlín?’
Paso 2: recupere y lea pasajes relevantes de una base de datos histórica confiable.
Paso 3: compare la evidencia recuperada con su respuesta.
Paso 4: Si existen discrepancias, corrija la respuesta y cite la fuente recuperada”.
Un ejemplo de respuesta esperada:
“Respuesta inicial: 1989.
Evidencia recuperada: Los archivos históricos confirman que el Muro de Berlín se abrió el 9 de noviembre de 1989.
Respuesta final verificada: El Muro de Berlín cayó el 9 de noviembre de 1989, cuando Berlín Oriental abrió los pasos fronterizos”.
7. Avisos, descargos de responsabilidad y barreras de seguridad específicos del dominio
En ámbitos de aplicación de alto riesgo, como la medicina, es esencial especificar límites de dominio restringidos y exigir citas de las fuentes, para reducir el riesgo de afirmaciones especulativas que en la práctica podrían tener consecuencias negativas. A continuación se muestra un ejemplo de cómo hacerlo:
“Usted es un asistente de información médica certificado. Utilizando estudios revisados por pares o pautas oficiales publicadas antes de 2024, explique el tratamiento de primera línea para el asma persistente moderada en adultos. Si no puede citar dicha pauta, responda: ‘No puedo brindar una recomendación; consulte a un profesional médico'”.
Un ejemplo de respuesta esperada:
“Según la directriz de la Iniciativa Global para el Asma (GINA) 2023, la terapia de primera línea para el asma persistente moderada es un corticosteroide inhalado en dosis bajas con un agonista β₂ de acción prolongada como budesonida/formoterol. Para ajustes específicos del paciente, consulte a un médico”.
Concluyendo
A continuación se muestra un resumen de las 7 estrategias que discutimos.
Descripción de la función Fomentar la abstención y las respuestas de “no sé” Permitir que el modelo diga “no sé” y evitar especulaciones. **Sin RAG**. Razonamiento estructurado en cadena de pensamiento Razonamiento paso a paso para mejorar la coherencia en las respuestas. **Sin RAG**. Conexión a tierra con “Según” Utilice referencias explícitas a las respuestas basadas en. **Sin RAG**. RAG con instrucción explícita y contexto Indique explícitamente al modelo que se base en la evidencia recuperada. **TRAPO**. Restricciones de salida y alcance limitante Restrinja el formato y la longitud de las respuestas para minimizar la elaboración especulativa y hacer que las respuestas sean más verificables. **Sin RAG**. Bucles de corrección basados en RAG: cadena de verificación Indique al modelo que verifique sus propios resultados con el conocimiento recuperado. **TRAPO**. Avisos, exenciones de responsabilidad y barreras de seguridad específicos del dominio Limite los avisos con reglas de dominio, requisitos de dominio o exenciones de responsabilidad en escenarios de alto riesgo. **Sin RAG**.
Este artículo enumera siete trucos útiles de ingeniería rápida, basados en plantillas versátiles para múltiples escenarios, que, cuando se introducen en sistemas LLM o RAG, pueden ayudar a reducir las alucinaciones: un problema común y a veces persistente en estos modelos que de otro modo serían todopoderosos.