LLMS lucha con conversaciones reales: los investigadores de Microsoft y Salesforce revelan una caída de rendimiento del 39% en las tareas subsecrificadas por múltiples vueltas.

La inteligencia artificial conversacional se centra en permitir que los modelos de idiomas grandes (LLM) participen en interacciones dinámicas donde las necesidades del usuario se revelan progresivamente. Estos sistemas están ampliamente implementados en herramientas que ayudan a la codificación, la escritura y la investigación interpretando y respondiendo a las instrucciones del lenguaje natural. La aspiración es que estos modelos se ajusten de manera flexible a las entradas del usuario cambiantes en múltiples vueltas, adaptando su comprensión con cada nueva información. Esto contrasta con las respuestas estáticas de vuelta única y resalta un objetivo de diseño importante: mantener la coherencia contextual y la entrega de resultados precisos en los diálogos extendidos.

Un problema persistente en la IA conversacional es la incapacidad del modelo para manejar las instrucciones del usuario distribuidas en múltiples giros de conversación. En lugar de recibir toda la información necesaria simultáneamente, los LLM deben extraer e integrar detalles clave de forma incremental. Sin embargo, cuando la tarea no se especifica por adelantado, los modelos tienden a hacer suposiciones tempranas sobre lo que se solicita e intentan soluciones finales prematuramente. Esto lleva a errores que persisten a través de la conversación, ya que los modelos a menudo se adhieren a sus interpretaciones anteriores. El resultado es que una vez que un LLM hace un paso en falso en la comprensión, lucha por recuperarse, lo que resulta en respuestas incompletas o equivocadas.

La mayoría de las herramientas actuales evalúan LLM utilizando indicaciones de giro único y totalmente especificados, donde todos los requisitos de tareas se presentan de una vez. Incluso en una investigación que reclama un análisis múltiple, las conversaciones son típicamente episódicas, tratadas como subtareas aisladas en lugar de un flujo en evolución. Estas evaluaciones no tienen en cuenta cómo se comportan los modelos cuando la información está fragmentada y el contexto debe construirse activamente a partir de múltiples intercambios. En consecuencia, las evaluaciones a menudo se pierden los modelos de dificultad central: la integración de las entradas subestimadas en varios giros conversacionales sin dirección explícita.

Investigadores de Microsoft Research and Salesforce Research introdujeron una configuración de simulación que imita cómo los usuarios revelan información en conversaciones reales. Su método de “simulación fragmentada” toma instrucciones completas de puntos de referencia de alta calidad y las divide en partes o “fragmentos” más pequeñas y conectadas lógicamente “. Cada fragmento ofrece un solo elemento de la instrucción original, que luego se revela secuencialmente en múltiples vueltas. Esto simula la divulgación progresiva de la información que ocurre en la práctica. La configuración incluye un usuario simulado impulsado por un LLM que decide qué Shard revelar a continuación y reformula naturalmente el contexto en curso. Esta configuración también utiliza mecanismos de clasificación para evaluar si las respuestas del asistente intentan una solución o requieren una aclaración, refinando aún más la simulación de la interacción genuina.

La tecnología desarrollada simula cinco tipos de conversaciones, incluidas las instrucciones completas de un solo cambio y múltiples configuraciones de giro múltiple. En simulaciones fragmentadas, LLMS recibió instrucciones un fragmento a la vez, obligándolos a esperar antes de proponer una respuesta completa. Esta configuración evaluó 15 LLM en seis tareas de generación: codificación, consultas SQL, acciones de API, problemas matemáticos, descripciones de datos a texto y resúmenes de documentos. Cada tarea se basó en conjuntos de datos establecidos como GSM8K, Spider y Totto. Para cada LLM e instrucción, se realizaron 10 simulaciones, por un total de más de 200,000 simulaciones. La aptitud, la falta de fiabilidad y el rendimiento promedio se calcularon utilizando un sistema de puntuación basado en percentiles, lo que permite la comparación directa de los mejores y peores resultados por modelo.

En todas las tareas y modelos, se observó una disminución constante en el rendimiento en el entorno fragmentado. En promedio, el rendimiento disminuyó del 90% en una sola vuelta al 65% en escenarios de múltiples vueltas, una disminución de 25 puntos. La causa principal no fue la capacidad reducida, sino un aumento dramático de la falta de fiabilidad. Si bien la aptitud disminuyó en un 16%, la falta de fiabilidad aumentó en un 112%, revelando que los modelos variaron enormemente en cómo se realizaron cuando la información se presentó gradualmente. Por ejemplo, incluso los modelos de alto rendimiento como GPT-4.1 y Gemini 2.5 Pro exhibieron degradaciones promedio del 30-40%. Computación adicional en el tiempo de generación o la aleación de la aleatoriedad (configuración de temperatura) ofreció solo mejoras menores en la consistencia.

Esta investigación aclara que incluso los LLM de última generación aún no están equipados para administrar conversaciones complejas donde los requisitos de tareas se desarrollan gradualmente. La metodología de simulación fragmentada expone efectivamente cómo los modelos fallan en la adaptación a las instrucciones en evolución, destacando la necesidad urgente de mejorar la confiabilidad en entornos múltiples. Mejorar la capacidad de los LLM para procesar instrucciones incompletas a lo largo del tiempo es esencial para las aplicaciones del mundo real donde las conversaciones son naturalmente no estructuradas e incrementales.

Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

LLMS lucha con conversaciones reales: los investigadores de Microsoft y Salesforce revelan una caída de rendimiento del 39% en las tareas subsecrificadas por múltiples vueltas.

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

El equipo Qwen de Alibaba lanza Qwen3.6-27B: un modelo denso y abierto que supera a 397 mil millones de MoE en puntos de referencia de codificación agente

“Es posible que su próximo compañero de trabajo no sea humano”, mientras Google apuesta todo por los agentes de inteligencia artificial para impulsar la oficina

Google Cloud AI Research presenta ReasoningBank: un marco de memoria que destila estrategias de razonamiento a partir de los éxitos y fracasos de los agentes

You missed

La administración Trump reclasifica oficialmente la marihuana medicinal con licencia estatal como Lista III

Las publicaciones continuarán hasta que mejore la moral

El loro Kea sin pico Bruce domina las justas para gobernar como el invicto loro alfa discapacitado

Contaminación por tratamientos antipulgas: exige una regulación más estricta