Optimización del razonamiento de LLM: equilibrar el conocimiento interno y el uso de la herramienta con Smart

Los avances recientes en LLM han mejorado significativamente sus habilidades de razonamiento, lo que les permite realizar la composición del texto, la generación de código y las tareas de deducción lógica. Sin embargo, estos modelos a menudo luchan por equilibrar su conocimiento interno y su uso de herramientas externas, lo que lleva al uso excesivo de la herramienta. Esto ocurre cuando los LLM se basan innecesariamente en herramientas externas para tareas que su conocimiento paramétrico puede manejar, aumentando los costos computacionales y, a veces, degradante el rendimiento. Los estudios indican que las LLM invocan herramientas más del 30% del tiempo, incluso cuando son innecesarios, destacando la falta de autoconciencia con respecto a sus límites de conocimiento. Abordar este problema requiere mejores mecanismos de calibración que permitan a los agentes impulsados por LLM determinar cuándo confiar en sus conocimientos versus recursos externos, mejorando en última instancia la eficiencia, la escalabilidad y la experiencia del usuario.

La investigación sobre los límites de conocimiento de LLM muestra que si bien estos modelos pueden funcionar bien en las tareas estructuradas, a menudo no reconocen sus limitaciones, lo que lleva a alucinaciones o un uso inadecuado de herramientas. Los esfuerzos para abordar estos desafíos incluyen la generación de recuperación aumentada de la recuperación, la calibración de confianza y la capacitación de límites de conocimiento explícito. Del mismo modo, los estudios sobre integración de herramientas han explorado el uso de herramientas adaptativas, la integración de módulos externos y las estrategias de invocación dinámica basadas en la incertidumbre interna. A pesar de estos avances, los puntos de referencia existentes revelan que los LLM luchan por determinar la necesidad y la idoneidad del uso de herramientas.

Inspirados por la metacognición humana, investigadores de la Universidad de Illinois Urbana-Champaign e IBM Research AI desarrollaron inteligente (razonamiento estratégico consciente del modelo con herramientas) para mejorar la autoconciencia de LLMS y optimizar el uso de herramientas. Introdujeron Smart-Er, un conjunto de datos que abarca los dominios de matemáticas, tiempo e intención, que guía a los modelos para equilibrar el razonamiento interno con herramientas externas a través de justificaciones explícitas. Usando este conjunto de datos, Smartagent se capacitó para reducir el uso excesivo de la herramienta en un 24% mientras mejoraba el rendimiento en un 37%, lo que permite que los modelos más pequeños coincidan con los modelos GPT-4 y 70B. Smartagent también generaliza bien a tareas de desactivación, lo que demuestra una toma de decisiones más segura y una confianza eficiente en la herramienta.

Smart mejora la metacognición del agente al equilibrar el conocimiento interno con herramientas externas para mitigar el uso excesivo de la herramienta. Smart-Er, un conjunto de datos que abarca los dominios de matemáticas, tiempo y intención, ayuda a los modelos a distinguir entre el razonamiento basado en el conocimiento y dependiente de la herramienta. Las consultas se descomponen en pasos estructurados, con un modelo que determina cuándo son necesarias las herramientas. Las cadenas de razonamiento incorporan justificaciones para refinar la toma de decisiones, mejorando la interpretabilidad. Smartagent, entrenados en modelos inteligentes y ajustados como Llama-3.1 y Mistral para optimizar el uso de la herramienta mientras mantienen la precisión. Este enfoque permite un razonamiento dinámico y consciente del contexto, reduciendo la dependencia de las herramientas externas al tiempo que mejora el rendimiento general y la confianza de la decisión en los modelos de idiomas.

El estudio presenta experimentos que demuestran la efectividad de Smartagent para reducir el uso excesivo de la herramienta al tiempo que mejora el rendimiento del razonamiento. Evaluado en datos en el dominio (Math, FreshQA, IN3) y Out Distribution (GSM8K, MINTQA), Smartagent se compara con varias líneas de base. Reduce la dependencia de la herramienta en un 24% mientras se logra un impulso de rendimiento del 37%. En particular, los modelos Smartagent de escala 7B y 8B superan a GPT-4O en ciertas tareas. Los resultados resaltan su uso eficiente de herramientas, capacidades de generalización y toma de decisiones óptimas. El análisis de errores muestra que Smartagent minimiza las llamadas de herramientas redundantes, mejorando la eficiencia de razonamiento. Un estudio de caso revela su enfoque lógico y su razonamiento metacognitivo, haciendo que sus respuestas sean más interpretables y efectivas.

En conclusión, el análisis destaca un tema clave: los agentes a menudo usan las herramientas externas, incluso cuando el conocimiento interno es suficiente, probablemente debido a la incertidumbre sobre sus capacidades o la conveniencia de consultas externas. Por el contrario, los modelos grandes como GPT-4O a veces subutilizan las herramientas, juzgando mal la complejidad de las tareas. Abordar estas ineficiencias puede involucrar restricciones de recursos o mecanismos adaptativos. Inspirado en la toma de decisiones humanas, el paradigma inteligente refina el razonamiento cuando los agentes dependen de las herramientas versus el conocimiento paramétrico. Un enfoque de calibración basado en datos mejora la autoconciencia, reduciendo el uso innecesario de la herramienta. El trabajo futuro podría explorar más a fondo el sondeo de confianza, los módulos de auto-verificación y el aprendizaje metacognitivo para optimizar la eficiencia de la toma de decisiones.

Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA

Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🚨 Plataforma de IA de código abierto recomendada: “Intellagent es un marco de agente múltiple de código abierto para evaluar el complejo sistema de IA conversacional” (promovido)

Optimización del razonamiento de LLM: equilibrar el conocimiento interno y el uso de la herramienta con Smart

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

Una implementación de codificación para recuperar IOC de malware oculto con FLARE-FLOSS más allá del análisis de cadenas clásico

Cómo construir una canalización de análisis de secuenciación de ARN unicelular con Scanpy para agrupación, anotación y descubrimiento de trayectorias de PBMC

You missed

Flamenco, caballos y jerez: la Feria del Caballo de Jerez

Karuppu: El director RJ Balaji sobre el retraso en el tráiler del protagonista de Suriya antes del estreno de la película, dice: “Está listo, esperemos…”

Eclipse solar total 2026 vs 2027: ¿cuál deberías elegir?

Pedro Sánchez envía “un abrazo al pueblo hermano mexicano” y carga contra el “espectáculo” del viaje de Ayuso: “Da vergüenza ajena”