Screenshot 2024 06 22 At 1.00.11 Am.png

Los LLM como ChatGPT y Gemini demuestran impresionantes capacidades de razonamiento y respuesta, pero a menudo producen «alucinaciones», lo que significa que generan información falsa o sin fundamento. Este problema obstaculiza su confiabilidad en campos críticos, desde el derecho hasta la medicina, donde las imprecisiones pueden tener graves consecuencias. Los esfuerzos por reducir estos errores mediante la supervisión o el refuerzo han tenido un éxito limitado. Un subconjunto de alucinaciones, denominadas “confabulaciones”, implica que los LLM den respuestas arbitrarias o incorrectas a consultas idénticas, como respuestas variables a una pregunta médica sobre Sotorasib. Este problema es distinto de los errores causados ​​por la capacitación sobre datos erróneos o fallas en el razonamiento sistemático. Comprender y abordar estos tipos de errores matizados es crucial para mejorar la confiabilidad del LLM.

Investigadores del grupo OATML de la Universidad de Oxford han desarrollado un enfoque estadístico para detectar un tipo específico de error en los LLM, conocido como “confabulaciones”. Estos errores ocurren cuando los LLM generan respuestas arbitrarias e incorrectas, a menudo debido a variaciones sutiles en la entrada o en la semilla aleatoria. El nuevo método aprovecha los estimadores de incertidumbre basados ​​en la entropía, centrándose en el significado más que en la redacción exacta de las respuestas. Al evaluar la “entropía semántica” (la incertidumbre en el sentido de las respuestas generadas), esta técnica puede identificar cuándo es probable que los LLM produzcan resultados no confiables. Este método no requiere conocimiento de la tarea específica ni de los datos etiquetados y es eficaz en diferentes conjuntos de datos y aplicaciones. Mejora la confiabilidad del LLM al señalar cuándo se necesita precaución adicional, lo que permite a los usuarios evitar o evaluar críticamente respuestas potencialmente confabuladas.

El método de los investigadores funciona agrupando respuestas similares según su significado y midiendo la entropía dentro de estos grupos. Si la entropía es alta, es probable que el LLM esté generando respuestas confabuladas. Este proceso mejora la detección de inconsistencias semánticas que las medidas de entropía ingenuas, que sólo consideran diferencias léxicas, podrían pasar por alto. La técnica se ha probado en varios LLM en múltiples dominios, como trivia, conocimientos generales y consultas médicas, lo que demuestra mejoras significativas en la detección y filtrado de respuestas poco confiables. Además, al negarse a responder preguntas que puedan producir respuestas de alta entropía (confabuladas), el método puede mejorar la precisión general de los resultados del LLM. Esta innovación representa un avance fundamental para garantizar la confiabilidad de los LLM, particularmente en la generación de textos de formato libre, donde los métodos tradicionales de aprendizaje supervisado se quedan cortos.

La entropía semántica es un método para detectar confabulaciones en LLM midiendo su incertidumbre sobre el significado de los resultados generados. Esta técnica aprovecha la entropía predictiva y agrupa secuencias generadas por equivalencia semántica utilizando vinculación bidireccional. Calcula la entropía semántica basándose en las probabilidades de estos grupos, lo que indica la confianza del modelo en sus respuestas. Al muestrear los resultados y agruparlos, la entropía semántica identifica cuándo las respuestas de un modelo probablemente sean arbitrarias. Este enfoque ayuda a predecir la precisión del modelo, mejora la confiabilidad al señalar respuestas inciertas y brinda a los usuarios una mejor evaluación de la confianza de los resultados del modelo.

El estudio se centra en identificar y mitigar confabulaciones (resultados erróneos o engañosos) generadas por los LLM utilizando una métrica llamada «entropía semántica». Esta métrica evalúa la variabilidad del significado entre diferentes generaciones de resultados del modelo, distinguiéndola de las medidas de entropía tradicionales que solo consideran diferencias léxicas. La investigación muestra que la entropía semántica, que explica el significado consistente a pesar de las diversas frases, detecta efectivamente cuando los LLM producen respuestas incorrectas o engañosas. La entropía semántica superó a los métodos de referencia como la entropía ingenua y la regresión de incrustación supervisada en varios conjuntos de datos y tamaños de modelos, incluidos los modelos LLaMA, Falcon y Mistral, superando a los métodos de referencia como la entropía ingenua y la regresión de incrustación supervisada, logrando un AUROC notable de 0,790. Esto sugiere que la entropía semántica proporciona un mecanismo sólido para identificar confabulaciones, incluso en cambios de distribución entre el entrenamiento y el despliegue.

Además, el estudio extiende la aplicación de la entropía semántica a pasajes de texto más largos, como párrafos biográficos, dividiéndolos en afirmaciones fácticas y evaluando la coherencia de estas afirmaciones mediante reformulación. Este enfoque demostró que la entropía semántica podría detectar eficazmente confabulaciones en textos extendidos, superando los mecanismos simples de autoverificación y adaptando métodos basados ​​en probabilidades. Los hallazgos implican que los LLM poseen inherentemente la capacidad de reconocer sus brechas de conocimiento, pero los métodos de evaluación tradicionales pueden aprovechar solo parcialmente esta capacidad. Por lo tanto, la entropía semántica ofrece una dirección prometedora para mejorar la confiabilidad de los resultados de LLM en tareas complejas y abiertas, proporcionando una manera de evaluar y gestionar las incertidumbres en sus respuestas.


Revisar la Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.