Enseñar a los modelos de IA a decir “No estoy seguro” | Noticias del MIT

La confianza es persuasiva. En los sistemas de inteligencia artificial, esto suele ser engañoso.

Los modelos de razonamiento más capaces de hoy comparten un rasgo con la voz más fuerte de la sala: dan cada respuesta con la misma certeza inquebrantable, ya sea que tengan razón o estén adivinando. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT ahora han atribuido ese exceso de confianza a un defecto específico en la forma en que se entrenan estos modelos y han desarrollado un método que lo soluciona sin renunciar a ninguna precisión.

La técnica, llamada RLCR (Aprendizaje reforzado con recompensas de calibración), entrena modelos de lenguaje para producir estimaciones de confianza calibradas junto con sus respuestas. Además de generar una respuesta, el modelo piensa en la incertidumbre de esa respuesta y genera una puntuación de confianza. En experimentos en múltiples puntos de referencia, RLCR redujo el error de calibración hasta en un 90 por ciento mientras mantenía o mejoraba la precisión, tanto en las tareas en las que se entrenó el modelo como en tareas completamente nuevas que nunca había visto. El trabajo se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje a finales de este mes.

El problema tiene una fuente sorprendentemente simple. Los métodos de aprendizaje por refuerzo (RL) detrás de los recientes avances en el razonamiento de la IA, incluido el enfoque de entrenamiento utilizado en sistemas como el o1 de OpenAI, recompensan a los modelos por obtener la respuesta correcta y los penalizan por hacerlo mal. Nada intermedio. Un modelo que llega a la respuesta correcta mediante un razonamiento cuidadoso recibe la misma recompensa que uno que adivina correctamente por casualidad. Con el tiempo, esto entrena a los modelos para que respondan con confianza a cada pregunta que se les haga, ya sea que tengan pruebas sólidas o que estén lanzando una moneda al aire.

Ese exceso de confianza tiene consecuencias. Cuando se implementan modelos en medicina, derecho, finanzas o cualquier entorno donde los usuarios toman decisiones basadas en resultados de IA, un sistema que expresa un alto nivel de confianza, independientemente de su certeza real, se vuelve poco confiable de maneras que son difíciles de detectar desde el exterior. Un modelo que dice “Estoy 95 por ciento seguro” cuando es correcto sólo la mitad de las veces es más peligroso que uno que simplemente responde mal, porque los usuarios no tienen señal para buscar una segunda opinión.

“El enfoque de entrenamiento estándar es simple y poderoso, pero no le da al modelo ningún incentivo para expresar incertidumbre o decir no sé”, dice Mehul Damani, estudiante de doctorado del MIT y coautor principal del artículo. “Así que el modelo aprende naturalmente a adivinar cuando no está seguro”.

RLCR aborda esto agregando un solo término a la función de recompensa: una puntuación Brier, una medida bien establecida que penaliza la brecha entre la confianza declarada de un modelo y su precisión real. Durante el entrenamiento, los modelos aprenden a razonar tanto sobre el problema como sobre su propia incertidumbre, produciendo juntas una respuesta y una estimación de confianza. Las respuestas equivocadas con confianza son penalizadas. También lo son las correctas, innecesariamente inciertas.

Las matemáticas lo respaldan: el equipo demostró formalmente que este tipo de estructura de recompensa garantiza modelos precisos y bien calibrados. Luego probaron el enfoque en un modelo de 7 mil millones de parámetros a través de una variedad de puntos de referencia matemáticos y de respuesta a preguntas, incluidos seis conjuntos de datos en los que el modelo nunca había sido entrenado.

Los resultados mostraron un patrón consistente. El entrenamiento RL estándar degradó activamente la calibración en comparación con el modelo base, lo que hizo que los modelos fueran peores a la hora de estimar su propia incertidumbre. RLCR revirtió ese efecto, mejorando sustancialmente la calibración sin pérdida de precisión. El método también superó a los enfoques post-hoc, en los que se entrena a un clasificador separado para asignar puntuaciones de confianza después del hecho. “Lo sorprendente es que el entrenamiento RL ordinario no sólo no ayuda a la calibración, sino que la perjudica activamente”, dice Isha Puri, estudiante de doctorado del MIT y coautora principal. “Los modelos se vuelven más capaces y al mismo tiempo más confiados”.

El equipo también demostró que las estimaciones de confianza producidas por RLCR son prácticamente útiles en el momento de la inferencia. Cuando los modelos generan múltiples respuestas de candidatos, seleccionar el que tenga la mayor confianza autoinformada o ponderar los votos según la confianza en un esquema de votación mayoritaria mejora tanto la precisión como la calibración como escalas de cálculo.

Un hallazgo adicional sugiere que el acto de razonar sobre la incertidumbre en sí mismo tiene valor. Los investigadores entrenaron clasificadores en los resultados del modelo y descubrieron que incluir el razonamiento explícito de incertidumbre del modelo en la entrada mejoraba el rendimiento del clasificador, particularmente para modelos más pequeños. El razonamiento autorreflexivo del modelo sobre lo que sabe y lo que no sabe contiene información real, no sólo decoración.

Además de Damani y Puri, otros autores del artículo son Stewart Slocum, Idan Shenfeld, Leshem Choshen y los autores principales Jacob Andreas y Yoon Kim.