Encuentre consultas de razonamiento atento (ARQ): un enfoque estructurado para mejorar la adhesión de instrucciones del modelo de lenguaje grande, precisión de la toma de decisiones y prevención de alucinación en sistemas de conversación impulsados por IA

Los modelos de idiomas grandes (LLM) se han vuelto cruciales en la atención al cliente, la creación de contenido automatizado y la recuperación de datos. Sin embargo, su efectividad a menudo se ve obstaculizada por su incapacidad para seguir las instrucciones detalladas durante múltiples interacciones de manera consistente. Este problema es particularmente crítico en entornos de alto riesgo, como servicios financieros y sistemas de atención al cliente, donde es esencial una estricta adherencia a las pautas. Los LLM frecuentemente luchan con el retiro de instrucciones, lo que lleva a desviaciones de los comportamientos previstos. Además, generan información engañosa o incorrecta, comúnmente llamada alucinación, lo que hace que su implementación sea un desafío en escenarios que requieren una toma de decisiones precisa y consciente del contexto.

Mantener la consistencia del razonamiento en escenarios complejos sigue siendo un desafío para los LLM. Si bien generan respuestas coherentes a consultas simples, su rendimiento disminuye en conversaciones de múltiples vueltas influenciadas por interacciones pasadas. Una cuestión clave es la deriva de alineación, donde los modelos se alejan gradualmente de las instrucciones originales, causando una interpretación errónea de las pautas y las recomendaciones incorrectas. El olvido del contexto es otra preocupación, donde los modelos priorizan la información reciente sobre detalles anteriores, a menudo ignorando las limitaciones críticas. Estos factores contribuyen a errores que socavan la confiabilidad de los sistemas impulsados por LLM. A pesar de las estrategias como la cadena de pensamiento (COT) y la solicitud basada en la verificación, los métodos existentes no proporcionan suficiente estructura para guiar a los modelos de manera confiable a través de tareas complejas.

Se han desarrollado varias técnicas de solicitación para mejorar la adhesión de instrucciones. La provisión de cuna fomenta el razonamiento paso a paso para mejorar la precisión lógica, mientras que la cadena de verificación requiere una autoevaluación explícita de las salidas. Aunque estos métodos mejoran la generación de respuesta directa, carecen de mecanismos para reforzar las restricciones específicas del dominio y prevenir sistemáticamente fallas comunes. Los marcos de IA como Langchain agregan elementos estructurales para la integración de herramientas y la automatización del flujo de trabajo, pero tratan el razonamiento de LLM como una caja negra, lo que limita su capacidad para hacer cumplir las pautas estrictas. La falta de mecanismos para prevenir la alucinación e instrucción a la deriva destaca la necesidad de un enfoque más estructurado.

Investigadores de EMCIE CO LTD. desarrollado Consultas de razonamiento atento (ARQ) Para abordar estas deficiencias. Este enfoque novedoso introduce un plan de razonamiento estructurado diseñado para guiar sistemáticamente a las consultas predefinidas. A diferencia de los métodos de razonamiento de forma libre, los ARQ implementan un esquema JSON estructurado que dirige la atención del modelo a puntos de decisión específicos en momentos críticos. Este diseño permite a los ARQ mejorar la adherencia de las directrices al tiempo que minimiza las fallas causadas por la mala interpretación o la pérdida de detalles contextuales. Para evaluar su efectividad, el enfoque se probó dentro de Parlanteun marco utilizado para construir aplicaciones de IA orientadas al cliente. Los resultados iniciales demostraron que ARQ mejoró significativamente las capacidades de seguimiento de la instrucción mientras mitigan los errores relacionados con la alucinación.

El marco ARQ consta de múltiples etapas que mejoran colectivamente el rendimiento del razonamiento. El primer paso implica la emisión de consultas específicas y estructuradas que recuerdan al modelo de restricciones clave antes de la generación de respuesta. Estas consultas refuerzan las instrucciones críticas, asegurando que el modelo no se desvíe de las pautas predefinidas. A continuación, el modelo procesa una serie de consultas paso a paso para reforzar el razonamiento específico de la tarea. En algunas implementaciones, sigue un paso de verificación adicional, donde el modelo verifica su respuesta contra los criterios de corrección predefinidos antes de finalizar la salida. Este enfoque estructurado contrasta bruscamente con la provisión de cuna al incorporar mecanismos explícitos para garantizar la consistencia en cada etapa del proceso de razonamiento.

En la evaluación del rendimiento dentro del Marco parlanteen un entorno de prueba controlado que comprende 87 escenarios de conversación distintos, ARQS logró una tasa de éxito del 90.2%, superando tanto el razonamiento COT (86.1%) como la generación de respuesta directa (81.5%). La metodología ARQ se destacó al abordar dos modos de falla crítica: reaplicación de la guía y prevención de alucinación. Específicamente, en los casos en que el modelo necesitaba volver a aplicar instrucciones anteriores, ARQS garantizó una tasa de éxito del 92.19%, significativamente más alta que la COT (87.81%) y la generación de respuesta directa (85.31%). Además, los ARQ redujeron la ocurrencia de imprecisiones objetivas, con modelos entrenados en ARQ que exhiben una tasa de alucinación 23% más baja que las que dependen de las técnicas de cuna estándar. Estos resultados subrayan la importancia de los enfoques de razonamiento estructurado para mejorar la confiabilidad de LLM.

Varias conclusiones clave de la investigación incluyen:

ARQS mejoró la adherencia de la instrucción, logrando una tasa de éxito del 90.2%en 87 casos de prueba, superando la cadena de pensamiento (86.1%) y la generación de respuesta directa (81.5%).
Los ARQ redujeron significativamente los errores de alucinación en un 23% en comparación con la cuna, lo que los hace particularmente útiles para aplicaciones de IA crítica de negocios que requieren consistencia objetiva.
En los escenarios de reaplicación de las directrices, ARQ superó a COT en un 4,38%, logrando una tasa de éxito del 92,19%en comparación con el 87,81%de COT.
La naturaleza estructurada de los ARQ permitió un razonamiento más eficiente en las tareas de clasificación, reduciendo el uso del token en un 29% en comparación con la cuna.
El mecanismo de verificación en ARQS fue clave para prevenir la deriva de alineación. Aseguró que los modelos se centraron en restricciones predefinidas incluso en conversaciones extendidas.
La investigación futura tiene como objetivo optimizar aún más la eficiencia de ARQ refinando el diseño de consultas y explorando su aplicación en diversos sistemas de toma de decisiones impulsados por la IA.

Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Parlant: construir agentes de AI de IA confiables con LLM 💬 ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅ ✅

Encuentre consultas de razonamiento atento (ARQ): un enfoque estructurado para mejorar la adhesión de instrucciones del modelo de lenguaje grande, precisión de la toma de decisiones y prevención de alucinación en sistemas de conversación impulsados por IA

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Mend.io lanza un marco de gobernanza de seguridad de IA que cubre el inventario de activos, la clasificación de riesgos, la seguridad de la cadena de suministro de IA y el modelo de madurez

Simulé una cadena de suministro internacional y dejé que OpenClaw la monitoreara

Una implementación detallada en Equinox con módulos nativos JAX, transformaciones filtradas, capas con estado y flujos de trabajo de capacitación de un extremo a otro

You missed

¿Cómo terminan los terremotos? Una ‘señal de alto’ sísmica podría ayudar a predecir el riesgo de terremotos

¿Qué extranjeros aportan más a la seguridad social española?

Christian Hubicki de Survivor habla con Jimmy Fallon sobre la eliminación

¿Necesitas preocuparte por Mythos, la IA de Anthropic que piratea computadoras?