La adopción generalizada de modelos de idiomas grandes (LLM) ha cambiado significativamente el panorama de la creación y el consumo de contenido. Sin embargo, también ha introducido desafíos críticos con respecto a la precisión y la confiabilidad objetiva. El contenido generado por LLMS a menudo incluye afirmaciones que carecen de verificación adecuada, lo que potencialmente conduce a información errónea. Por lo tanto, extraer con precisión las afirmaciones de estos resultados para verificar los hechos efectivos se ha vuelto esencial, aunque desafiante debido a ambigüedades inherentes y dependencias de contexto.

Microsoft AI Research ha desarrollado recientemente Reclamación, un método avanzado de extracción de reclamos basado en LLM, diseñado específicamente para mejorar la precisión, la integridad y la conciencia del contexto en la extracción de reclamos de las salidas de LLM. Reclamar aborda las limitaciones de los métodos existentes tratando explícitamente con la ambigüedad. A diferencia de otros enfoques, identifica oraciones con múltiples interpretaciones posibles y solo procede con la extracción de reclamos cuando el significado previsto se determina claramente dentro del contexto dado. Este enfoque cuidadoso garantiza una mayor precisión y confiabilidad, particularmente en beneficio de los esfuerzos de verificación de hechos posteriores.

Desde un punto de vista técnico, Reclamify emplea una tubería estructurada que comprende tres etapas clave: selección, desambiguación y descomposición. Durante la etapa de selección, reclamar aproveche los LLM para identificar oraciones que contienen información verificable, filtrando las que no tienen contenido fáctico. En la etapa de desambiguación, se enfoca de manera única en detectar y resolver ambigüedades, como referencias poco claras o interpretaciones plausibles múltiples. Las reclamaciones se extraen solo si las ambigüedades se pueden resolver con confianza. La etapa final, la descomposición, implica convertir cada oración aclarada en reclamos precisos e independientes del contexto. Este proceso estructurado mejora tanto la precisión como la integridad de las afirmaciones resultantes.

En evaluaciones utilizando el conjunto de datos BingCheck, que cubre una amplia gama de temas y respuestas complejas generadas por LLM, la reclamación demostró mejoras notables sobre los métodos anteriores. Logró una alta tasa de implicación del 99%, lo que indica una fuerte consistencia entre las reclamaciones extraídas y el contenido original. Con respecto a la cobertura, reclamar capturó el 87.6% del contenido verificable al tiempo que mantiene una alta tasa de precisión del 96.7%, superando los enfoques comparables. Su enfoque sistemático para la descontextualización también aseguró que se retuvieran los detalles contextuales esenciales, lo que resultó en reclamos mejor tierra en comparación con los métodos anteriores.

En general, Reclamify representa un avance significativo en la extracción automatizada de reclamos confiables del contenido generado por LLM. Al abordar metódicamente la ambigüedad y la contextualidad a través de un marco de evaluación estructurado y cuidadoso, Reclamify establece un nuevo estándar para la precisión y la confiabilidad. A medida que la dependencia del contenido producido por LLM continúa creciendo, herramientas como Reclamify desempeñarán un papel cada vez más crucial para garantizar la confiabilidad y la integridad fáctica de este contenido.


Verificar el Papel y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Por automata