Los modelos de lenguaje grande (LLM) se utilizan ampliamente en tareas de lenguaje natural, desde la respuesta a preguntas hasta la IA conversacional. Sin embargo, un problema persistente con los LLM es la “alucinación”, donde el modelo genera respuestas que son objetivamente incorrectas o infundadas en la realidad. Estas alucinaciones pueden disminuir la confiabilidad de los LLM, lo que plantea desafíos para las aplicaciones prácticas, particularmente en campos que requieren precisión, como el diagnóstico médico y el razonamiento legal. Para mejorar la confiabilidad de los LLM, los investigadores se han centrado en comprender las causas de las alucinaciones. Clasifican las alucinaciones como derivadas de una falta de conocimiento o de errores que ocurren a pesar de la información correcta del modelo. Al centrarse en las raíces de estos errores, los investigadores esperan mejorar la eficacia de los LLM en varios dominios.
Los investigadores abordan dos fenómenos distintos al distinguir entre las alucinaciones causadas por información ausente y el conocimiento mal aplicado. El primer tipo ocurre cuando el modelo carece de la información necesaria, como cuando se le plantean preguntas sobre hechos específicos y menos conocidos. En este caso, los LLM tienden a inventar respuestas que suenan plausibles pero incorrectas. El segundo tipo surge cuando el modelo tiene el conocimiento pero aún genera una respuesta incorrecta. Tales alucinaciones indican un problema con la forma en que el modelo procesa o recupera su conocimiento almacenado, más que una cuestión de escasez de conocimiento. Esta distinción es esencial ya que diferentes errores requieren diferentes intervenciones.
Los métodos tradicionales para mitigar las alucinaciones en los LLM no abordan adecuadamente estas distintas causas. Los enfoques anteriores a menudo combinan ambos errores en una sola categoría, lo que lleva a estrategias de detección “únicas” que se basan en grandes conjuntos de datos genéricos. Sin embargo, esta combinación limita la capacidad de estos enfoques para identificar y abordar los diferentes mecanismos subyacentes a cada tipo de error. Los conjuntos de datos genéricos no pueden dar cuenta de los errores que ocurren dentro del conocimiento existente del modelo, lo que significa que se pierden datos valiosos sobre los errores de procesamiento del modelo. Sin conjuntos de datos especializados que se centren en los errores que surgen de la mala aplicación del conocimiento, los investigadores no han podido abordar de manera efectiva todo el alcance de las alucinaciones en los LLM.
Investigadores de Technion – Instituto de Tecnología de Israel y Google Research presentaron el ESTRAFALARIO (W.rong AResponder a pesar de docorrecto kconocimiento) metodología. Este enfoque crea conjuntos de datos específicos del modelo para diferenciar entre alucinaciones debidas a información ausente y aquellas que surgen de errores de procesamiento. Los conjuntos de datos WACK se adaptan a los patrones de error y conocimiento únicos de cada modelo, lo que garantiza que las alucinaciones se analicen dentro del contexto de las fortalezas y debilidades del modelo. Al aislar estos errores, los investigadores pueden obtener información sobre los distintos mecanismos internos que dan lugar a cada tipo de alucinación y desarrollar intervenciones más efectivas en consecuencia.
La metodología WACK utiliza dos configuraciones experimentales, “incitaciones de mal tiro” y “instrucciones de Alice-Bob”, para inducir alucinaciones en modelos con el conocimiento correcto. Estas configuraciones crean indicaciones que simulan escenarios en los que los usuarios o modelos cometen errores sutiles que provocan alucinaciones, incluso cuando el modelo teóricamente sabe la respuesta correcta. En las “indicaciones incorrectas”, se introducen deliberadamente en la indicación respuestas falsas que se parecen a las correctas, simulando un efecto de “bola de nieve” en el que una respuesta incorrecta conduce a otra. En la configuración de “solicitudes de Alice-Bob”, se agrega sutilmente información incorrecta a través de una indicación similar a una historia para imitar errores menores que un usuario podría introducir. Al utilizar estas técnicas, WACK captura cómo los LLM responden a escenarios contextualmente confusos, generando conjuntos de datos que brindan información más matizada sobre las causas de las alucinaciones.
Los resultados de la metodología WACK demostraron que los conjuntos de datos específicos del modelo superan significativamente a los conjuntos de datos genéricos en la detección de alucinaciones relacionadas con la mala aplicación del conocimiento. Los experimentos con modelos como Mistral-7B, Llama-3.1-8B y Gemma-2-9B mostraron marcadas mejoras en la detección de errores de “alucinaciones a pesar del conocimiento” (HK+) utilizando conjuntos de datos WACK. Por ejemplo, mientras que los conjuntos de datos genéricos arrojaron entre un 60% y un 70% de precisión en la identificación de estos errores, los conjuntos de datos específicos del modelo de WACK lograron tasas de detección de hasta el 95% en diferentes configuraciones de mensajes. Además, las pruebas que utilizaron datos WACK revelaron que los modelos podían identificar errores HK+ de forma preventiva, basándose únicamente en la pregunta inicial, un resultado inalcanzable con las evaluaciones tradicionales posteriores a la respuesta. Este alto nivel de precisión resalta la necesidad de conjuntos de datos personalizados para capturar comportamientos matizados específicos del modelo y lograr una detección superior de alucinaciones.
La investigación WACK destaca varios conocimientos clave sobre la dinámica de las alucinaciones LLM:
- Precisión en la diferenciación de errores: Los conjuntos de datos específicos del modelo capturan diferencias sutiles en las causas de las alucinaciones que los conjuntos de datos genéricos pasan por alto, lo que permite intervenciones dirigidas a la escasez de conocimiento y los errores de procesamiento.
- Alta precisión en la detección de HK+: WACK demostró hasta un 95 % de precisión en la identificación de alucinaciones basadas en conocimientos en diferentes LLM, superando a los métodos de detección tradicionales hasta en un 25 %.
- Escalabilidad y aplicabilidad: La capacidad de la metodología WACK para generalizar entre modelos muestra su adaptabilidad para muchas arquitecturas LLM, proporcionando un modelo eficaz para futuras mejoras de LLM.
En conclusión, al distinguir entre las alucinaciones debidas a la falta de conocimiento y las que surgen de un conocimiento mal aplicado, la metodología WACK ofrece una solución sólida para mejorar la precisión y confiabilidad del LLM. Los conjuntos de datos personalizados y específicos del modelo proporcionan la detección matizada necesaria para abordar cada tipo de alucinación, lo que marca un avance significativo con respecto a los enfoques genéricos. El trabajo de los investigadores con WACK ha establecido un nuevo estándar para comprender y mitigar las alucinaciones, mejorar la confiabilidad de los LLM y ampliar su aplicación en campos de conocimiento intensivo.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel
Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.