Desde el pretréngra hasta el post-entrenamiento: por qué los modelos de lenguaje alucinan y cómo los métodos de evaluación refuerzan el problema

Los modelos de idiomas grandes (LLM) a menudo generan “alucinaciones”, salidas confiables pero incorrectas que parecen plausibles. A pesar de las mejoras en los métodos y arquitecturas de entrenamiento, persisten las alucinaciones. Una nueva investigación de OpenAi Proporciona una explicación rigurosa: las alucinaciones provienen de las propiedades estadísticas del aprendizaje supervisado versus auto-supervisado, y su persistencia se ve reforzada por puntos de referencia de evaluación desalineados.

¿Qué hace que las alucinaciones estadísticamente inevitables?

El equipo de investigación explica las alucinaciones como errores inherentes al modelado generativo. Incluso con datos de entrenamiento perfectamente limpios, el objetivo de la entropía cruzada utilizada en el pretratamiento introduce presiones estadísticas que producen errores.

El equipo de investigación reduce el problema a una tarea de clasificación binaria supervisada llamada Es-it-valid (IIV): Determinar si la salida de un modelo es válida o errónea. Proban que la tasa de error generativa de un LLM es al menos el doble de su tasa de clasificación errónea de IIV. En otras palabras, las alucinaciones ocurren por las mismas razones que las clasificaciones erróneas aparecen en el aprendizaje supervisado: incertidumbre epistémica, modelos pobres, cambio de distribución o datos ruidosos.

¿Por qué los hechos raros desencadenan más alucinaciones?

Un conductor importante es el tarifa singleton—La fracción de hechos que aparecen solo una vez en los datos de entrenamiento. Por analogía con la estimación de masa faltante de bien, si el 20% de los hechos son singleton, al menos el 20% de ellos serán alucinados. Esto explica por qué LLM responde de manera confiable sobre hechos muy repetidos (por ejemplo, el cumpleaños de Einstein) pero falla en los oscuros o raramente mencionados.

¿Pueden las familias de modelos pobres conducir a alucinaciones?

Sí. Las alucinaciones también surgen cuando la clase modelo no puede representar adecuadamente un patrón. Los ejemplos clásicos incluyen modelos N-Gram que generan oraciones no gramaticales, o modelos modernos de tokenizados con letras excesivas porque los personajes están ocultos dentro de los tokens de subvenciones. Estos límites de representación causan errores sistemáticos incluso cuando los datos en sí son suficientes.

¿Por qué el post-entrenamiento no elimina las alucinaciones?

Los métodos posteriores a la capacitación como RLHF (aprendizaje de refuerzo de la retroalimentación humana), DPO y RLAIF reducen algunos errores, especialmente los resultados dañinos o conspiradores. Pero las alucinaciones demasiado confidenciales permanecen porque los incentivos de evaluación están desalineados.

Al igual que los estudiantes que adivinan en los exámenes de opción múltiple, los LLM son recompensados por farolear cuando no están seguros. La mayoría de los puntos de referencia, como MMLU, GPQA y SWE-Bench, aplican la puntuación binaria: las respuestas correctas obtienen crédito, abstenciones (“No sé”) no obtienen ninguna, y las respuestas incorrectas no son penalizadas más duras que las abstenciones. Bajo este esquema, adivinar maximiza los puntajes de referencia, incluso si fomenta las alucinaciones.

¿Cómo refuerzan las tablas de clasificación las alucinaciones?

Una revisión de los puntos de referencia populares muestra que casi todos usan la calificación binaria sin crédito parcial por la incertidumbre. Como resultado, los modelos que expresan sinceramente la incertidumbre funcionan peor que los que siempre adivinan. Esto crea una presión sistémica para que los desarrolladores optimicen los modelos para respuestas seguras en lugar de las calibradas.

¿Qué cambios podrían reducir las alucinaciones?

El equipo de investigación argumenta que la fijación de alucinaciones requiere un cambio socio técnico, no solo nuevas suites de evaluación. Ellos proponen Objetivos de confianza explícitos: Los puntos de referencia deben especificar claramente sanciones por respuestas incorrectas y crédito parcial por abstenciones.

Por ejemplo: “Responda solo si tiene> 75% de confianza. Los errores pierden 2 puntos; las respuestas correctas ganan 1; ‘No sé’ gana 0.”

Este diseño refleja los exámenes del mundo real como los formatos SAT y GRE anteriores, donde adivinar llevaba penalizaciones. Fomenta calibración conductualLos modelos se abstienen cuando su confianza está por debajo del umbral, produciendo menos alucinaciones exageradas y aún optimizando para el rendimiento de referencia.

¿Cuáles son las implicaciones más amplias?

Este trabajo replantea las alucinaciones como resultados predecibles de los objetivos de capacitación y la desalineación de la evaluación en lugar de las peculiaridades inexplicables. Lo más destacado de los hallazgos:

Inevitabilidad previa a la altura: Alucinaciones Errores de clasificación errónea paralela en el aprendizaje supervisado.
Refuerzo posterior al entrenamiento: Los esquemas de clasificación binaria incentivan la adivinación.
Reforma de evaluación: Ajustar los puntos de referencia convencionales para recompensar la incertidumbre puede realinear incentivos y mejorar la confiabilidad.

Al conectar las alucinaciones con la teoría del aprendizaje establecida, la investigación desmitifica su origen y sugiere estrategias prácticas de mitigación que cambian la responsabilidad de las arquitecturas de modelos al diseño de la evaluación.

Mira el PAPEL y Detalles técnicos aquí. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Desde el pretréngra hasta el post-entrenamiento: por qué los modelos de lenguaje alucinan y cómo los métodos de evaluación refuerzan el problema

ByEquipo de 7 minutos

¿Qué hace que las alucinaciones estadísticamente inevitables?

¿Por qué los hechos raros desencadenan más alucinaciones?

¿Pueden las familias de modelos pobres conducir a alucinaciones?

¿Por qué el post-entrenamiento no elimina las alucinaciones?

¿Cómo refuerzan las tablas de clasificación las alucinaciones?

¿Qué cambios podrían reducir las alucinaciones?

¿Cuáles son las implicaciones más amplias?

By Equipo de 7 minutos

Related Post

Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

Llevando herramientas de diseño de proteínas impulsadas por IA a biólogos de todo el mundo | Noticias del MIT

You missed

Los bomberos apagan el incendio de las montañas de Orihuela cerca de las viviendas de Montepinar « Euro Weekly News

¿Por qué Supriya Ganesh, Dr. Mohan, de ‘The Pitt’ dejó el elenco? – Vida en Hollywood

Un cálculo simple puede predecir la presión arterial alta mejor que el IMC: ScienceAlert

No la jueza Judy, sino la jurado Judi, pero un “error estúpido” no es “malicia real” para fines de difamación