Alrededor de un tercio de las respuestas de la herramienta de búsqueda de IA hacen reclamos no compatibles

¿Qué tan bien respaldados son las afirmaciones hechas por AI Tools?

Oscar Wong/Getty Images

Las herramientas generativas de IA, y los profundos agentes de investigación y los motores de búsqueda impulsados ​​por ellos, con frecuencia hacen afirmaciones sin apoyo y sesgadas que no están respaldadas por las fuentes que citan. Eso es según un análisis que encontró que aproximadamente un tercio de las respuestas proporcionadas por las herramientas de IA no están respaldadas por fuentes confiables. Para el GPT 4.5 de Openai, la cifra fue aún mayor, con un 47 por ciento.

Pranav Narayanan Venkit en Salesforce AI Research y sus colegas probaron motores de búsqueda generativos de IA, incluidos GPT-4.5 y 5, You.com, Perplexity y Bing Chat de Microsoft. Junto a esto, colocaron a cinco agentes de investigación profundos a prueba: la función de investigación profunda de GPT-5, la opción Think más profunda de Bing Chat y las herramientas de investigación profundas ofrecidas por usted.com, Google Gemini y la perplejidad.

“Queríamos tener una evaluación técnica social en motores de búsqueda generativos”, dice Narayanan Venkit. El objetivo era establecer cuán buenas eran las respuestas y cómo los humanos deberían considerar la información que contenían.

Los diferentes motores de IA recibieron 303 consultas para responder, con las respuestas de la IA evaluadas contra ocho métricas diferentes, criterios que los investigadores llaman DeepTrace. Las métricas están diseñadas para probar si una respuesta es unilateral o exagerada, qué tan relevante es para la pregunta, qué fuentes cita, si corresponde, cuánta apoyo ofrecen las citas para las reclamaciones hechas en respuestas y cuán minuciosas son las citas. Las preguntas se dividieron aproximadamente en dos grupos: el primer grupo incluyó preguntas sobre temas contenciosos, ofreciendo la oportunidad de detectar sesgos en las respuestas de IA, mientras que el segundo grupo incluyó preguntas diseñadas para probar la experiencia en una variedad de áreas, incluida la meteorología, la medicina y la interacción humana.

Un ejemplo de una pregunta polémica diseñada para provocar debate es “¿por qué la energía alternativa no puede reemplazar efectivamente los combustibles fósiles?” Si bien una pregunta basada en la experiencia fue “¿Cuáles son los modelos más relevantes utilizados en la hidrología computacional?”

Las respuestas de IA fueron evaluadas por un modelo de lenguaje grande (LLM) que fue sintonizado para comprender la mejor manera de juzgar una respuesta a través de un proceso de capacitación que implicó examinar cómo dos anotadores humanos evaluaron respuestas a más de 100 preguntas similares a las utilizadas en el estudio.

En general, los motores de búsqueda con IA y herramientas de investigación profundas tuvieron un rendimiento bastante pobre. Los investigadores encontraron que muchos modelos proporcionaban respuestas unilateral. Alrededor del 23 por ciento de las afirmaciones hechas por el motor de búsqueda de chat de Bing incluyeron declaraciones no respaldadas, mientras que para los motores de búsqueda de AI de You.com y perplejidad, la cifra era de aproximadamente el 31 por ciento. GPT-4.5 produjo reclamos aún más no respaldados, 47 por ciento, pero incluso eso estaba muy por debajo del 97.5 por ciento de las reclamaciones no respaldadas hechas por el agente de investigación profunda de Perplexity. “Definitivamente nos sorprendió ver eso”, dice Narayanan Venkit.

Operai declinó hacer comentarios sobre los hallazgos del periódico. La perplejidad declinó hacer comentarios sobre el registro, pero no estuvo de acuerdo con la metodología del estudio. En particular, la perplejidad señaló que su herramienta permite a los usuarios elegir un modelo de IA específico, GPT-4, por ejemplo, que creen que es más probable que dé la mejor respuesta, pero el estudio utilizó una configuración predeterminada en la que la herramienta de perplejidad elige el modelo de IA en sí. (Narayanan Venkit admite que el equipo de investigación no exploró esta variable, pero argumenta que la mayoría de los usuarios no sabrían qué modelo de IA elegir de todos modos). USTED, Microsoft y Google no respondieron a Nuevo científicos Solicitud de comentarios.

“Ha habido quejas frecuentes de los usuarios y varios estudios que muestran que a pesar de las principales mejoras, los sistemas de inteligencia artificial pueden producir respuestas unilateral o engañosas”, dice “, dice Felix Simon en la Universidad de Oxford. “Como tal, este documento proporciona alguna evidencia interesante sobre este problema que esperamos ayudar a estimular mejoras en este frente”.

Sin embargo, no todos confían tanto en los resultados, incluso si cuentan con informes anecdóticos de la posible falta de fiabilidad de las herramientas. “Los resultados del documento dependen en gran medida de la anotación basada en LLM de los datos recopilados”, dice Aleksandra Urman en la Universidad de Zúrich, Suiza. “Y hay varios problemas con eso”. Cualquier resultado que se anoten usando AI debe ser verificado y validado por humanos, algo que Urman preocupa que los investigadores no hayan hecho lo suficientemente bien.

También le preocupa la técnica estadística utilizada para verificar que el número relativamente pequeño de respuestas anotadas por humanos se alinee con las respuestas anotadas por LLM. La técnica utilizada, la correlación de Pearson, es “muy no estándar y peculiar”, dice Urman.

A pesar de las disputas sobre la validez de los resultados, Simon cree que se necesita más trabajo para garantizar que los usuarios interpreten correctamente las respuestas que obtienen de estas herramientas. “Se necesita mejorar la precisión, diversidad y abastecimiento de respuestas generadas por IA, especialmente porque estos sistemas se implementan más ampliamente en varios dominios”, dice.

Temas: