¿Es factible la detección de alucinación automatizada en LLM? Una investigación teórica y empírica

Los avances recientes en LLM han mejorado significativamente la comprensión del lenguaje natural, el razonamiento y la generación. Estos modelos ahora se destacan en diversas tareas como la resolución de problemas matemáticos y la generación de texto contextualmente apropiado. Sin embargo, queda un desafío persistente: los LLM a menudo generan alucinaciones: respuestas fluentes pero fácticamente incorrectas. Estas alucinaciones socavan la confiabilidad de los LLM, especialmente en dominios de alto riesgo, lo que provoca una necesidad urgente de mecanismos de detección efectivos. Si bien el uso de LLM para detectar alucinaciones parece prometedora, la evidencia empírica sugiere que se quedan cortos en comparación con el juicio humano y generalmente requieren comentarios externos y anotados para funcionar mejor. Esto plantea una pregunta fundamental: ¿es intrínsecamente la tarea de detección de alucinación automatizada, o podría ser más factible a medida que mejoren los modelos?

Los estudios teóricos y empíricos han tratado de responder esto. Sobre la base de marcos de teoría del aprendizaje clásico como Gold-Angluin y las recientes adaptaciones a la generación del lenguaje, los investigadores han analizado si la generación confiable y representativa se puede lograr bajo diversas limitaciones. Algunos estudios destacan la complejidad intrínseca de la detección de alucinación, vinculándola con limitaciones en las arquitecturas de modelos, como las luchas de los transformadores con la composición de funciones a escala. En el lado empírico, métodos como SelfCheckGPT evalúan la consistencia de la respuesta, mientras que otros aprovechan los estados del modelo interno y el aprendizaje supervisado para marcar el contenido alucinado. Aunque los enfoques supervisados ​​que utilizan datos etiquetados mejoran significativamente la detección, los detectores actuales basados ​​en LLM aún luchan sin una guía externa sólida. Estos hallazgos sugieren que mientras se realizan progresos, la detección de alucinación totalmente automatizada puede enfrentar barreras teóricas y prácticas inherentes.

Los investigadores de la Universidad de Yale presentan un marco teórico para evaluar si las alucinaciones en las salidas de LLM se pueden detectar automáticamente. Basándose del modelo Gold-Angluin para la identificación del lenguaje, muestran que la detección de alucinación es equivalente a identificar si los resultados de una LLM pertenecen a un lenguaje correcto K. Su hallazgo clave es que la detección es fundamentalmente imposible cuando la capacitación usa solo ejemplos correctos (positivos). Sin embargo, cuando se incluyen ejemplos negativos, alucinaciones etiquetadas explícitamente, la detección se vuelve factible. Esto subraya la necesidad de la retroalimentación marcada con expertos y apoya métodos como el aprendizaje de refuerzo con comentarios humanos para mejorar la confiabilidad de LLM.

El enfoque comienza mostrando que cualquier algoritmo capaz de identificar un lenguaje en el límite puede transformarse en uno que detecte alucinaciones en el límite. Esto implica el uso de un algoritmo de identificación de lenguaje para comparar los resultados de la LLM con un lenguaje conocido con el tiempo. Si surgen discrepancias, se detectan alucinaciones. Por el contrario, la segunda parte demuestra que la identificación del idioma no es más difícil que la detección de alucinación. Combinando un método de verificación de consistencia con un detector de alucinación, el algoritmo identifica el lenguaje correcto al descartar candidatos inconsistentes o alucinantes, seleccionando en última instancia el lenguaje consistente y no talucinante más pequeño.

El estudio define un modelo formal en el que un alumno interactúa con un adversario para detectar alucinaciones, declaraciones fuera de un idioma de destino, basada en ejemplos secuenciales. Cada idioma de destino es un subconjunto de un dominio contable, y el alumno observa elementos con el tiempo mientras consulta un candidato establecido para la membresía. El resultado principal muestra que detectar alucinaciones dentro del límite es tan difícil como identificar el lenguaje correcto, que se alinea con la caracterización de Angluin. Sin embargo, si el alumno también recibe ejemplos etiquetados que indican si los elementos pertenecen al idioma, la detección de alucinación se puede lograr universalmente para cualquier colección contable de idiomas.

En conclusión, el estudio presenta un marco teórico para analizar la viabilidad de la detección de alucinación automatizada en LLM. Los investigadores prueban que la detección de alucinaciones es equivalente al problema de identificación del lenguaje clásico, que generalmente es inviable cuando se usa solo ejemplos correctos. Sin embargo, muestran que la incorporación de ejemplos marcados incorrectos (negativos) hace posible la detección de alucinación en todos los idiomas contables. Esto resalta la importancia de la retroalimentación de expertos, como RLHF, para mejorar la confiabilidad de LLM. Las instrucciones futuras incluyen cuantificar la cantidad de datos negativos requeridos, manejar etiquetas ruidosas y explorar objetivos de detección relajados basados ​​en los umbrales de densidad de alucinación.


Mira el Papel. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:

Comunidad de Noticias de ML – r/machinelearningnews (92k+ miembros)

Hoja informativa- airesearchinsights.com/(30k+ suscriptores)

Eventos de Minicon AI – minicon.marktechpost.com

Informes de IA y revistas – revista.marktechpost.com

AI Dev & Research News – marktechpost.com (1M+ lectores mensuales)


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.