La actualización ‘bayesiana’: por qué el nuevo método de enseñanza de Google AI es la clave para el razonamiento del LLM

Los grandes modelos de lenguaje (LLM) son los mejores imitadores del mundo, pero cuando se trata de la lógica fría y dura de actualizar creencias basadas en nueva evidencia, son sorprendentemente tercos. Un equipo de investigadores de Google sostiene que la cosecha actual de agentes de IA está muy por debajo del “razonamiento probabilístico”: la capacidad de mantener y actualizar un “modelo mundial” a medida que llega nueva información.

¿La solución? Deja de intentar darles las respuestas correctas y empieza a enseñarles a adivinar como un matemático.

El problema: el estancamiento de lo “único y hecho”

Si bien los LLM como Gemini-1.5 Pro y GPT-4.1 Mini pueden escribir código o resumir correos electrónicos, tienen dificultades como agentes interactivos. Imagine un asistente de reserva de vuelos: necesita inferir sus preferencias (precio versus duración) observando qué vuelos elige durante varias rondas.

El equipo de investigación descubrió que los LLM disponibles en el mercado, incluidos pesos pesados ​​como Llama-3-70B y Qwen-2.5-32B, mostraron “poca o ninguna mejora” después de la primera ronda de interacción. Mientras que un ‘Asistente Bayesiano’ (un modelo simbólico que utiliza la regla de Bayes) se vuelve más preciso con cada punto de datos, los LLM estándar se estancaron casi de inmediato, sin poder adaptar sus ‘creencias’ internas a la función de recompensa específica del usuario.

Conozca la enseñanza bayesiana

El equipo de investigación introdujo una técnica llamada Enseñanza Bayesiana. En lugar de ajustar un modelo con datos “correctos” (lo que llaman un profesor de Oracle), lo ajustaron para imitar un asistente bayesiano, un modelo que utiliza explícitamente la regla de Bayes para actualizar una distribución de probabilidad sobre las posibles preferencias del usuario.

Aquí está el desglose técnico:

La tarea: una interacción de recomendación de vuelo de cinco rondas. Los vuelos se definen por características como precio, duración y escalas. La función de recompensa: un vector que representa las preferencias del usuario (por ejemplo, una fuerte preferencia por precios bajos). La actualización posterior: después de cada ronda, el Asistente bayesiano actualiza su distribución posterior en función de lo anterior (supuestos iniciales) y la probabilidad (la probabilidad de que el usuario elija un determinado vuelo dada una función de recompensa específica).

Al utilizar el ajuste fino supervisado (SFT) en estas interacciones bayesianas, el equipo de investigación obligó a los LLM a adoptar el proceso de razonamiento bajo incertidumbre, no solo el resultado final.

Por qué las ‘conjeturas fundamentadas’ superan a las respuestas correctas

El hallazgo más contrario a la intuición de la investigación es que la enseñanza bayesiana superó consistentemente a la enseñanza de Oracle.

En ‘Oracle Teaching’, el modelo se entrena con un profesor que ya sabe exactamente lo que quiere el usuario. En la ‘Enseñanza Bayesiana’, el profesor suele equivocarse en las primeras rondas porque todavía está aprendiendo. Sin embargo, esas “conjeturas fundamentadas” proporcionan una señal de aprendizaje mucho más fuerte. Al observar al asistente bayesiano luchar con la incertidumbre y luego actualizar sus creencias después de recibir retroalimentación, el LLM aprende la “habilidad” de actualizar las creencias.

Los resultados fueron claros: los modelos bayesianos (como Gemma-2-9B o Llama-3-8B) no sólo fueron más precisos sino que coincidieron con la estrategia bayesiana “estándar de oro” aproximadamente el 80% de las veces, significativamente más que sus versiones originales.

Generalización: más allá de los vuelos a las compras web

Para los desarrolladores, el “santo grial” es la generalización. Un modelo entrenado con datos de vuelo no sólo debería ser bueno en vuelos; debe comprender el concepto de aprender de un usuario.

El equipo de investigación probó sus modelos perfeccionados en:

Mayor complejidad: pasar de cuatro funciones de vuelo a ocho. Nuevos Dominios: Recomendaciones de hoteles. Escenarios del mundo real: una tarea de compra web que utiliza productos reales (títulos y descripciones) de un entorno simulado.

Aunque los modelos solo se ajustaron con datos de vuelos sintéticos, transfirieron con éxito esas habilidades de razonamiento probabilístico a las reservas de hoteles y las compras en la web. De hecho, los LLM bayesianos incluso superaron a los participantes humanos en algunas rondas, ya que los humanos a menudo se desvían de los estándares de razonamiento normativo debido a sesgos o falta de atención.

El puente neurosimbólico

Esta investigación destaca una fortaleza única del aprendizaje profundo: la capacidad de destilar un modelo simbólico clásico (el Asistente Bayesiano) en una red neuronal (el LLM).

Si bien los modelos simbólicos son excelentes para tareas simples y codificadas, son notoriamente difíciles de construir para dominios “desordenados” del mundo real, como las compras en la web. Al enseñar al LLM a imitar la estrategia del modelo simbólico, es posible obtener lo mejor de ambos mundos: el razonamiento riguroso de un bayesiano y la comprensión flexible del lenguaje natural de un transformador.

Conclusiones clave

Los LLM luchan con la actualización de creencias: los LLM disponibles en el mercado, incluidos modelos de última generación como Gemini-1.5 Pro y GPT-4.1 Mini, no logran actualizar de manera efectiva sus creencias a medida que reciben nueva información, y el rendimiento a menudo se estanca después de una sola interacción. La enseñanza bayesiana supera la capacitación directa: enseñar a un LLM a imitar las ‘conjeturas fundamentadas’ y la incertidumbre de un modelo bayesiano normativo es más efectivo que entrenarlo directamente sobre las respuestas correctas (enseñanza de oráculo). Las habilidades probabilísticas se generalizan en todos los dominios: los LLM perfeccionados en tareas sintéticas simples (por ejemplo, recomendaciones de vuelos) pueden transferir con éxito sus habilidades de actualización de creencias a escenarios más complejos del mundo real, como compras en la web y recomendaciones de hoteles. Los modelos neuronales son más resistentes al ruido humano: si bien un modelo bayesiano puramente simbólico es óptimo para usuarios simulados consistentemente, los LLM ajustados demuestran una mayor solidez al interactuar con humanos, cuyas elecciones a menudo se desvían de sus preferencias declaradas debido al ruido o al sesgo. Destilación efectiva de estrategias simbólicas: la investigación demuestra que los LLM pueden aprender a aproximarse a estrategias complejas de razonamiento simbólico a través de un ajuste supervisado, lo que les permite aplicar estas estrategias en dominios demasiado confusos o complejos para codificarse explícitamente en un modelo simbólico clásico.

Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.