Más allá de la realidad o la ficción: evaluación de las capacidades avanzadas de verificación de hechos de modelos de lenguaje grandes como GPT-4

Investigadores de la Universidad de Zurich se centran en el papel de los modelos de lenguaje grande (LLM, por sus siglas en inglés) como GPT-4 en la verificación autónoma de hechos, evaluando su capacidad para formular consultas, recuperar datos contextuales y tomar decisiones mientras brindan explicaciones y citas. Los resultados indican que los LLM, particularmente GPT-4, funcionan bien con información contextual, pero la precisión varía según el lenguaje de consulta y la veracidad de las afirmaciones. Si bien resulta prometedor en la verificación de hechos, las inconsistencias en la precisión resaltan la necesidad de realizar más investigaciones para comprender mejor sus capacidades y limitaciones.

La investigación de verificación de datos automatizada se ha desarrollado con diversos enfoques y tareas compartidas durante la última década. Los investigadores han propuesto componentes como la detección de afirmaciones y la extracción de pruebas, a menudo basándose en grandes modelos de lenguaje y fuentes como Wikipedia. Sin embargo, garantizar la explicabilidad sigue siendo un desafío, ya que las explicaciones claras de los veredictos de verificación de hechos son cruciales para el uso periodístico.

La importancia de la verificación de datos ha aumentado con el aumento de la desinformación en línea. Los engaños desencadenaron este aumento durante acontecimientos importantes como las elecciones presidenciales estadounidenses de 2016 y el referéndum sobre el Brexit. Es necesario mejorar la verificación manual de datos para la gran cantidad de información en línea, lo que requiere soluciones automatizadas. Los modelos de lenguaje grandes como GPT-4 se han vuelto vitales para verificar información. Una mayor explicabilidad en estos modelos es un desafío en las aplicaciones periodísticas.

El estudio actual evalúa el uso de LLM en la verificación de hechos, centrándose en GPT-3.5 y GPT-4. Los modelos se evalúan bajo dos condiciones: una sin información externa y otra con acceso al contexto. Los investigadores introducen una metodología original utilizando el marco ReAct para crear un agente iterativo para la verificación automatizada de hechos. El agente decide de forma autónoma si concluye una búsqueda o continúa con más consultas, con el objetivo de equilibrar precisión y eficiencia, y justifica su veredicto con los razonamientos citados.

El método propuesto evalúa los LLM para la verificación autónoma de hechos, y GPT-4 generalmente supera a GPT-3.5 en el conjunto de datos PolitiFact. La información contextual mejora significativamente el rendimiento del LLM. Sin embargo, se recomienda precaución debido a la precisión variable, especialmente en categorías matizadas como medio cierto y mayormente falso. El estudio exige más investigaciones para mejorar la comprensión de cuándo los LLM sobresalen o fallan en las tareas de verificación de hechos.

GPT-4 supera a GPT-3.5 en la verificación de hechos, especialmente cuando se incorpora información contextual. Sin embargo, la precisión varía según factores como el lenguaje de consulta y la integridad de las afirmaciones, especialmente en categorías matizadas. También enfatiza la importancia de una supervisión humana informada al implementar LLM, ya que incluso una tasa de error del 10% puede tener graves consecuencias en el panorama de la información actual, destacando el papel irremplazable de los verificadores de datos humanos.

Es esencial realizar más investigaciones para comprender de manera integral las condiciones bajo las cuales los agentes de LLM sobresalen o fallan en la verificación de hechos. Es una prioridad investigar la precisión inconsistente de los LLM e identificar métodos para mejorar su desempeño. Los estudios futuros pueden examinar el rendimiento de LLM en todos los lenguajes de consulta y su relación con la veracidad de las afirmaciones. Explorar diversas estrategias para equipar a los LLM con información contextual relevante tiene el potencial de mejorar la verificación de hechos. El análisis de los factores que influyen en la mejora de la detección de afirmaciones falsas en comparación con las verdaderas por parte de los modelos puede ofrecer información valiosa para mejorar la precisión.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.