¿Podemos alinear los LLM con la honestidad mediante el ajuste de la instrucción? Abordar las alucinaciones en modelos de lenguaje grandes con ajuste de instrucciones consciente del rechazo

Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong y la Universidad de Illinois Urbana-Champaign han colaborado para abordar un desafío que enfrentan los grandes modelos de lenguaje (LLM) conocidos como alucinaciones, donde estos modelos generan hechos inexistentes, mediante la introducción de un enfoque novedoso. llamado Ajuste de instrucciones consciente del rechazo (R-Tuning). La observación de los métodos de ajuste de instrucciones existentes revela que a menudo en LLM, los modelos se ven obligados a completar oraciones incluso cuando existe una brecha de conocimiento, lo que conduce a la generación de información inexacta.

La idea central del R-tuning implica reconocer la brecha de conocimiento entre el conocimiento paramétrico de los LLM y los datos de ajuste de instrucciones y luego construir un conjunto de datos consciente del rechazo identificando preguntas inciertas y entrenando el modelo para que se niegue explícitamente a responder preguntas más allá de su conocimiento paramétrico. Este proceso de dos pasos implica medir la brecha de conocimiento comparando las predicciones del modelo con etiquetas de verdad sobre el terreno y construyendo datos conscientes del rechazo agregando expresiones de incertidumbre a preguntas inciertas.

Los investigadores realizaron experimentos de tarea única y multitarea en siete conjuntos de datos, a saber, ParaRel, HotpotQA, SelfAware, HaluEval, FalseQA, NEC, MMLU, WiCE y FEVER. En experimentos de una sola tarea, R-Tuning demostró una capacidad notable para rechazar preguntas inciertas, lo que mejoró la precisión en las preguntas dentro del conocimiento del modelo. En experimentos de tareas múltiples, R-Tuning mostró su capacidad de rechazo como una metahabilidad, brindando ventajas dentro y fuera de los conjuntos de datos del dominio.

Las comparaciones con modelos de referencia, incluidos los ajustes finos Pretrain-T, Pretrain-W y Vanilla, revelaron que R-Tuning superó consistentemente en puntuaciones de precisión promedio (AP). Los resultados indicaron que R-Tuning redujo efectivamente las alucinaciones al filtrar preguntas más allá del dominio de conocimiento del modelo. Además, el estudio exploró el impacto del tamaño del modelo en la capacidad de rechazo, mostrando que los modelos más grandes demostraron una mejor escalabilidad y rendimiento.

Sorprendentemente, los investigadores descubrieron que aprender la incertidumbre durante el entrenamiento e incorporarla al proceso de entrenamiento del modelo produjo mejores resultados que aplicar directamente el filtrado de incertidumbre en los datos de prueba. Este hallazgo inesperado sugirió que la incertidumbre del aprendizaje mejoró el entrenamiento del modelo para estimar la incertidumbre y responder preguntas, destacando las ventajas de incorporar el aprendizaje de la incertidumbre en el entrenamiento LLM. También descubrieron estrategias de identificación no supervisadas y métodos de reemplazo de etiquetas dentro de R-Tuning, lo que demuestra que la identificación basada en la incertidumbre y el reemplazo directo de etiquetas eran enfoques efectivos.

Además, R-Tuning abordó con éxito preguntas sin respuesta, negándose a proporcionar respuestas a consultas que contradecían el sentido común o estaban más allá del conocimiento del modelo. El análisis en profundidad incluyó el examen de la perplejidad de las preguntas rechazadas y la entropía de las respuestas, proporcionando información sobre cómo R-Tuning mejoró la capacidad del modelo para manejar diferentes niveles de aleatoriedad y dificultades de las preguntas.

En conclusión, los investigadores introdujeron R-Tuning como un método poderoso para enseñar a los LLM a rechazar preguntas desconocidas, abordar el desafío de las alucinaciones y mejorar la precisión del modelo. La capacidad de rechazo demostrada por R-Tuning se identificó como una metahabilidad que podría generalizarse en varias tareas, lo que demuestra su impacto potencial en la confiabilidad y el rendimiento de grandes modelos de lenguaje.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarriba, Gorjeoy Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.

🐝 Consigue impresionantes fotografías profesionales sin esfuerzo con Aragon. ¡PRUÉBALO AHORA!

¿Podemos alinear los LLM con la honestidad mediante el ajuste de la instrucción? Abordar las alucinaciones en modelos de lenguaje grandes con ajuste de instrucciones consciente del rechazo

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

4 nuevas técnicas para maximizar el código Claude

Mejores decisiones a escala: cómo la optimización matemática funciona donde falla la intuición

Xiaomi MiMo y TileRT impulsan un modelo de 1 billón de parámetros que supera los 1000 tokens por segundo en GPU comerciales

You missed

Encuestamos a científicos sobre extraterrestres. Sus respuestas fueron reveladoras. : Alerta científica

Mercado Medieval Morisco de Mojácar 2026 « Euro Weekly News

Una sola enzima que se ha vuelto rebelde puede provocar el Alzheimer, y una molécula puede calmarlo

llegada de León XIV al Prat, recorrido y agenda de actos este martes