¿Le pide a un LLM que simule 6.000 hogares estadounidenses respondiendo preguntas sobre inflación? Artículos recientes encuentran que los modelos lingüísticos de gran tamaño pueden replicar las respuestas promedio de las principales encuestas de hogares con una precisión de un punto porcentual (Zarifhonarvar, 2026). En 2020, la Encuesta de Expectativas del Consumidor (SCE) informó una tasa de inflación media a un año vista de alrededor del 3%. La mediana producida por un LLM motivado con personajes realistas y una instrucción de límite de conocimientos: también alrededor del 3%. Lo suficientemente cerca como para que los LLM se hayan presentado como un complemento de alta frecuencia y bajo costo a las encuestas de SCE, Michigan y Survey of Professional Forecasters.
En un artículo reciente, ¿Pueden los LLM imitar las encuestas de hogares?, en coautoría con Ami Dalloul de la Universidad de Duisburg-Essen, analizamos el segundo momento, la parte de una distribución de probabilidad que indica si el modelo representa una opinión o mil. Es aquí donde desaparece el aparente éxito de las encuestas basadas en LLM. El mismo modelo Llama-3 que alcanza la mediana del SCE dentro de un punto porcentual coloca al 95% de sus encuestados simulados dentro de una ventana de dos puntos porcentuales. Las respuestas reales de la SCE en 2020 oscilan aproximadamente entre menos 25 y más 27 por ciento. En definitiva, el promedio es correcto, pero la población que hay detrás no existe. Por lo tanto, ejecutar una simulación con varios miles de personas de LLM se reduce a un agente representativo.
Figura 1: Dispersión de las poblaciones de encuestas sintéticas y del mundo real
Nota: El panel izquierdo representa la dispersión de los encuestados individuales de SCE de 2020 en torno a su media. La radiación difusa refleja creencias heterogéneas entre los encuestados. El panel central aplica la misma construcción a las respuestas sintéticas de un modelo Llama-3.1-8B-Instruct generado con personas que coinciden con la distribución demográfica de SCE. La dispersión colapsa hasta un punto cercano. El modelo recupera la media y descarta todo lo demás. El panel derecho utiliza el mismo modelo de Llama no aprendido con ascenso de gradiente (GA). El modelo no aprendido logra una dispersión más realista y no colapsa alrededor del modo.
Colapso de modo
Comparamos cinco LLM (Llama-3-8B, Llama-3-70B, Claude-3.7-Sonnet, DeepSeek-V3, GPT-4o) con la SCE, la Encuesta de Michigan y la Encuesta de pronosticadores profesionales. En las encuestas humanas, entre el 44% y el 70% de los encuestados dan respuestas a más de 3 puntos porcentuales de la respuesta modal; en las muestras de LLM, esa proporción es esencialmente cero.
Los remedios estándar de la literatura sobre simulación de encuestas no mejoran este problema. Personas derivadas del censo con características complejas y variables, instrucciones de corte de conocimiento cero (“no conoce los eventos posteriores a junio de 2018”) y mensajes explícitos de “no buscar estadísticas”, todos tienen por defecto la misma distribución estrecha. La causa probable es que los LLM ven tablas de IPC, cobertura de noticias de las publicaciones de encuestas de FRBNY y replicaciones académicas en sus corpus de capacitación. Cuando se le pregunta por la expectativa de inflación media para 2020, el modelo está recuperando datos memorizados. El peso de esos datos de entrenamiento domina cualquier cosa que las instrucciones le pidan que haga.
Desaprender los LLM
Si el problema son las estadísticas memorizadas, una posible solución es eliminarlas de los pesos en lugar de pedirle al modelo que mire hacia otro lado. Aplicamos dos métodos de desaprendizaje a Llama-3.1-8B-Instruct, un modelo de código abierto que nos permite modificar sus pesos:
Gradient Ascent (GA) maximiza la pérdida de predicción en un conjunto olvidado de series de IPC y agregados de encuestas, con una pérdida de retención en el razonamiento de microencuestas para que sobreviva la capacidad general. La optimización de preferencias negativas (NPO) trata el conjunto de olvidos como terminaciones no preferidas y minimiza una pérdida de preferencia limitada frente a un modelo de referencia.
Los datos que le pedimos al modelo que olvide son el propio registro oficial de inflación: series mensuales del IPC y expectativas de inflación media publicadas a partir de las encuestas FRBNY SCE y Michigan. El efecto del desaprendizaje en la distribución de las respuestas se muestra en la Tabla 1.
Tabla 1 Precisión de la cola con diferentes estrategias de desaprendizaje
Nota: Desaprender estrategias para mitigar el colapso del modo. El ascenso de gradiente (GA) es un método de desaprendizaje dirigido en el que el modelo se ajusta para maximizar la pérdida en un conjunto de datos de estadísticas oficiales del IPC y al mismo tiempo minimizar la pérdida, o retener (RT), en un conjunto de datos de microencuestas. La optimización de preferencias negativas (NPO) trata las estadísticas oficiales como muestras negativas para penalizar su generación, mientras que trata las muestras retenidas (RT) como positivas. Respuestas sintéticas de la encuesta sobre las expectativas de inflación como desviaciones porcentuales de la moda y la media (entre paréntesis) dentro de grupos de coincidencias exactas, desviaciones de ± 1 y > 3 %. Cola Acc. mide la cercanía al punto de referencia de dispersión de cola de FRBNY (> ± 3,0 = 44,38).
La línea de base Llama-3 (que incluye desaprendizaje basado en indicaciones) produce una coincidencia de modo exacta en el 92% de las respuestas y ninguna respuesta a más de 3 puntos de distancia. Por lo tanto, la precisión de la cola respecto al índice de referencia SCE del 44 % es cero. Después de GA, las coincidencias exactas caen al 24% y el 43% de las respuestas superan ±3pp; La precisión de la cola alcanza el 97%. NPO es comparable al 37% y al 43%, con una precisión de cola del 98%. En otras palabras, ambos métodos de desaprendizaje parecen recuperar una distribución más realista.
Figura 2 Dispersión de LLM versus modelos de desaprendizaje
Nota: El lado izquierdo muestra las estimaciones de densidad del kernel de las expectativas de inflación para 2020 del FRBNY SCE y dos variantes de Llama-3 entrenadas con métodos de desaprendizaje, ascenso de gradiente (GA) y optimización de preferencias negativas (NPO). Ambas variantes de desaprendizaje cubren el rango donde FRBNY SCE ubica la masa de probabilidad, aunque todavía permanecen más concentradas que el punto de referencia humano y ligeramente sesgadas hacia medias más altas. El lado derecho compara los KDE de las expectativas generadas por LLM (GPT-4o, Llama-3, etc.) con FRBNY SCE en 2020. Las curvas LLM (eje izquierdo) están estrechamente agrupadas alrededor de una región estrecha, mientras que la curva FRBNY SCE sigue siendo mucho más amplia. Los LLM pueden igualar la tendencia central pero no logran reproducir la dispersión transversal de los microdatos de las encuestas. Ancho de banda = 0,5 para todos los KDE.
Las densidades de núcleo (Figura 2) muestran que los modelos disponibles acumulan masa de probabilidad en un pico delgado cerca de la media. Las variantes no aprendidas se extendieron masivamente en el rango donde las expresaron los encuestados humanos del SCE.
Simulación de un ensayo controlado aleatorio
Una distribución más amplia es necesaria, pero no suficiente, para la aplicación que motivó nuestro artículo: replicar ECA de encuestas con versiones sintéticas. Los ECA son caros. Una vez finalizada la recopilación de datos, un investigador no puede volver a probar una teoría que surgió más tarde ni variar un tratamiento. Los agentes sintéticos nos permitirían hacer exactamente eso, si su comportamiento coincide con el que producen los encuestados reales.
Para probar esto, replicamos un ECA del mundo real realizado por Coibion, Gorodnichenko y Weber (2022). Los encuestados son asignados aleatoriamente a uno de varios grupos: un grupo de control no ve información, varios grupos de tratamiento reciben cada uno una información económica diferente (la tasa de inflación pasada real, el objetivo del 2% de la Reserva Federal, etc.), y a un grupo de placebo se le muestra contenido no relacionado con la inflación. Todos los encuestados informan primero una expectativa de inflación anterior, luego ven lo que se le asigna a su grupo y luego informan una nueva expectativa posterior. La diferencia entre posterior y anterior es la revisión del encuestado.
Un tratamiento funciona si sus revisiones difieren visiblemente de las del grupo de control, y si la dirección del cambio coincide con lo que espera la teoría económica: revisiones a la baja a partir de la comunicación del FOMC, revisiones al alza a partir de noticias sobre precios más altos de la gasolina. La verificación de nuestros agentes sintéticos es si sus revisiones se separan de la misma manera que lo hicieron los encuestados humanos.
Construimos 30.000 personas sintéticas con datos demográficos derivados del censo y estimamos el efecto promedio del tratamiento en cada uno de los tres LLM, incluidos los no estudiados. La primera comprobación es sobre los propios antecedentes: los agentes de expectativas de inflación informan antes de ver cualquier información. La Figura 3 representa la media y la desviación estándar de estos antecedentes entre subgrupos demográficos para el punto de referencia humano y los tres LLM. Un modelo de desaprendizaje (Llama-GA) se acerca al agregado humano tanto en nivel como en dispersión. Si bien un método de desaprendizaje funcionó (GA), el otro no (NPO). Por lo tanto, es posible que desaprender no sea una solución única para todos.
Figura 3 Estimaciones del modelo de inflación percibida
Nota: Cada panel traza por subgrupo demográfico para el punto de referencia humano (Coibion et al., 2022), la Llama-3 de referencia y sus dos variantes no aprendidas (GA, NPO). La línea discontinua marca el valor humano “Todos”. Lado izquierdo: Llama-3 y Llama-NPO son esencialmente uniformes en cuanto a características demográficas; Llama-GA rastrea el nivel humano en promedio pero no reproduce el ordenamiento intrademográfico (por ejemplo, predice la media más alta para “universidad o más” e “Inc T3”, contrariamente al patrón humano). Lado derecho: el modelo GA no aprendido recupera la mayor parte de la dispersión colapsada por el modelo base.
La siguiente comprobación es sobre cómo se actualizan los antecedentes tras el tratamiento de la información. En los modelos de referencia Llama-3 y Llama-NPO, las revisiones son esencialmente idénticas en todos los tratamientos y los modelos no registran ningún efecto de tratamiento. Llama-GA es el único donde los tratamientos se separan, y dentro de su subgrupo más grande de agentes (80% de la muestra), los cuatro tratamientos de política monetaria (inflación pasada, objetivo de la Fed, pronóstico del FOMC, declaración del FOMC) producen revisiones negativas y significativas del mismo signo y magnitud aproximada que los encuestados humanos en Coibion et al.
Que sacar de esto
Para los investigadores y profesionales que deciden si utilizar LLM para realizar encuestas, el resumen es:
Los LLM no pueden imitar diferentes personas. La simulación de encuestas se reduce a que un agente responda la misma pregunta miles de veces, acercándose cada vez a algo muy cercano a la media, a veces hasta cuatro decimales. El desaprendizaje dirigido recupera la mayor parte de la dispersión y una parte respetable de los efectos del tratamiento en un ECA con participantes humanos. Sin embargo, los métodos de desaprendizaje logran diferentes niveles de éxito. La brecha entre la precisión media y la precisión distributiva es lo suficientemente grande como para que cualquier artículo que utilice encuestados sintéticos debería informar la segunda.
El trabajo futuro debería tratar la precisión distributiva y la fuga de datos como limitaciones conjuntas en lugar de preocupaciones secundarias. El progreso dependerá de métodos que tengan en cuenta tanto lo que saben los modelos como cómo se evalúan sus resultados, prestando mayor atención a la dispersión, las colas y la actualización de creencias que a los promedios únicamente.
Referencias
Coibion, O., Y. Gorodnichenko y M. Weber (2022). Comunicaciones de política monetaria y sus efectos sobre las expectativas de inflación de los hogares. Revista de Economía Política 130(6), 1537–1584.
Dalloul, A., Pfeifer, M. (2026). ¿Pueden los LLM imitar las encuestas de hogares?: De agentes representativos a distribuciones de población. Preimpresión SSRN. Enlace al documento de trabajo
Zarifhonarvar, A. (2026). Generar expectativas de inflación con grandes modelos lingüísticos. Revista de Economía Monetaria 157, 103859
Datos de replicación
Dalloul, A., Pfeifer, M. (2026). Datos de replicación para: “¿Pueden los LLM imitar las encuestas de hogares?: De agentes representativos a distribuciones de población”, https://doi.org/10.7910/DVN/CRIRVJ, Harvard Dataverse, V1.