Enseñar a la IA que diga ‘No sé’: un nuevo conjunto de datos mitiga las alucinaciones de la fina de refuerzo

Refuerzo Finetuning utiliza señales de recompensa para guiar el modelo de lenguaje grande hacia un comportamiento deseable. Este método agudiza la capacidad del modelo para producir salidas lógicas y estructuradas al reforzar las respuestas correctas. Sin embargo, el desafío persiste en garantizar que estos modelos también sepan cuándo no responder, particularmente, cuando se enfrentan a preguntas incompletas o engañosas que no tienen una respuesta definitiva.

El problema surge cuando los modelos de lenguaje, después de la delicadeza de refuerzo, comienzan a perder su capacidad de negarse a responder consultas poco claras o ambiguas. En lugar de señalar la incertidumbre, los modelos tienden a producir respuestas establecidas con confianza pero incorrectas. Este fenómeno, identificado en el documento como el “impuesto de alucinación”, destaca un riesgo creciente. Como los modelos están entrenados para funcionar mejor, también pueden tener más probabilidades de alucinar las respuestas en situaciones en las que el silencio sería más apropiado. Esto es especialmente peligroso en dominios que requieren alta confianza y precisión.

Las herramientas actualmente utilizadas en la capacitación de modelos de idiomas grandes a menudo pasan por alto la importancia del comportamiento de rechazo. Los marcos de finaming de refuerzo tienden a recompensar solo las respuestas correctas mientras penalizan las incorrectas, ignorando los casos en que una respuesta válida no debería ser una respuesta en absoluto. Los sistemas de recompensa en uso no refuerzan suficientemente la negativa, lo que resulta en modelos demasiado confidenciales. Por ejemplo, el documento muestra que las tasas de rechazo cayeron a casi cero en múltiples modelos después de RFT estándar, lo que demuestra que el entrenamiento actual no aborda la alucinación correctamente.

Investigadores de la Universidad del Sur de California desarrollaron el conjunto de datos de matemáticas sintéticas sin respuesta (suma). La suma introduce problemas matemáticos implícitamente sin respuesta al modificar las preguntas existentes a través de criterios como la falta de información clave o la creación de inconsistencias lógicas. Los investigadores utilizaron Deepcaler como conjunto de datos base y emplearon el modelo O3-Mini para generar preguntas sin respuesta de alta calidad. Este conjunto de datos sintético tiene como objetivo enseñar a los modelos a reconocer cuándo un problema carece de información suficiente y responde en consecuencia.

La técnica central de SUM es mezclar problemas responsables y sin respuesta durante el entrenamiento. Las preguntas se modifican para volverse ambiguas o insoluble mientras mantienen la plausibilidad. La capacitación solicita que los modelos diga “No sé” las entradas sin respuesta. Al introducir solo el 10% de los datos de suma en la sintonización de refuerzo, los modelos comienzan a aprovechar el razonamiento de tiempo de inferencia para evaluar la incertidumbre. Esta estructura les permite rechazar las respuestas de manera más apropiada sin afectar su rendimiento en problemas solucionables.

El análisis de rendimiento muestra mejoras significativas. Después del entrenamiento con la suma, el modelo Qwen2.5-7b aumentó su tasa de rechazo de 0.01 a 0.73 en el punto de referencia de suma y de 0.01 a 0.81 en el punto de referencia UMWP. En el conjunto de datos de Aware, la precisión de la negativa aumentó dramáticamente de 0.01 a 0.94. Llama-3.1-8B-Instructo mostró una tendencia similar, con tasas de rechazo que mejoraron de 0.00 a 0.75 en suma y de 0.01 a 0.79 en UMWP. A pesar de estas ganancias en el comportamiento de rechazo, la precisión en los conjuntos de datos que responden, como GSM8K y Math -500, se mantuvieron estables, con la mayoría de los cambios que van desde 0.00 a -0.05. La caída mínima indica que el entrenamiento de rechazo se puede introducir sin sacrificios importantes en el rendimiento de la tarea.

Este estudio describe una clara compensación entre el razonamiento mejorado y la confiabilidad. El refuerzo de la fina, aunque potente, tiende a suprimir el comportamiento cauteloso. El conjunto de datos de suma corrige esto enseñando modelos para reconocer lo que no pueden resolver. Con solo una pequeña adición a los datos de capacitación, los modelos de idiomas mejoran para identificar los límites de su conocimiento. Este enfoque marca un paso significativo para hacer que los sistemas de IA no solo sea más inteligente sino también más cuidadoso y honesto.


Mira el Papel y Conjunto de datos en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto.

🆕 ¿Sabías? MarktechPost es la plataforma de medios AI de más rápido crecimiento, remunerada por más de 1 millón de lectores mensuales. Reserve una llamada de estrategia para discutir los objetivos de su campaña. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.