Decodificación del razonamiento de la IA: una inmersión profunda en el impacto del pedido local en modelos de lenguaje grandes de Google DeepMind y investigadores de Stanford

Un aspecto intrigante de la cognición humana es el proceso de deducción lógica, donde las conclusiones se derivan de un conjunto de premisas o hechos. La estructura lógica dicta que el orden de las premisas no debe influir en el resultado del razonamiento, un principio que se aplica en gran medida a los procesos cognitivos humanos. Sin embargo, en IA, este problema surge en los LLM: su desempeño varía significativamente con los cambios en la secuencia de las premisas presentadas a pesar de que la conclusión lógica permanece sin cambios.

Las investigaciones existentes destacan que el efecto del orden de las premisas en los LLM está relacionado con modos de falla como la maldición inversa, la distracción y la capacidad limitada de razonamiento lógico. Incluir un contexto irrelevante en el planteamiento del problema conduce a una caída del rendimiento en los LLM, lo que indica distracción. Esto significa que los modelos de lenguaje pueden comprender hasta cierto punto textos permutados, pero el rendimiento del razonamiento LLM es muy sensible al orden de las premisas.

Investigadores de Google Deepmind y la Universidad de Stanford han introducido un enfoque novedoso para determinar el impacto del ordenamiento de premisas en el rendimiento del razonamiento de un LLM. Al alterar la secuencia de premisas en tareas de razonamiento lógico y matemático, el estudio evalúa sistemáticamente la capacidad de los modelos para mantener la precisión. Los hallazgos son claros: una desviación del orden óptimo puede provocar una caída del rendimiento de más del 30%, lo que resalta un aspecto previamente poco explorado de la sensibilidad del modelo.

El efecto del orden de las premisas se mide variando el número de reglas requeridas en la prueba y el número de reglas que distraen. El punto de referencia incluye 27.000 problemas con diferentes órdenes de premisas y números de reglas que distraen. El conjunto de datos R-GSM se construyó para evaluar el efecto de las órdenes de las premisas más allá del razonamiento lógico en problemas planteados de matemáticas de la escuela primaria. El punto de referencia R-GSM contiene 220 pares de problemas con diferentes ordenamientos de enunciados de problemas. Los LLM obtienen resultados considerablemente peores en problemas reescritos en el punto de referencia R-GSM. Un ejemplo en R-GSM muestra que los LLM resuelven correctamente el problema original pero fallan en el reescrito.

El estudio encontró que el desempeño de los LLM en tareas de razonamiento está significativamente influenciado por el orden de las premisas presentadas, y un orden directo produce los mejores resultados. Se observaron variaciones en la preferencia por el orden de las premisas entre los diferentes LLM, en particular con GPT-4-turbo y PaLM 2-L. La presencia de reglas que distraen afecta aún más el desempeño del razonamiento, exacerbando el desafío. El conjunto de datos R-GSM demostró una disminución general en la precisión del LLM, particularmente con problemas reordenados, destacando problemas como alucinaciones de hechos y errores que surgen del procesamiento secuencial y el orden temporal pasado por alto.

En conclusión, el estudio examina críticamente el efecto de ordenamiento de las premisas, arrojando luz sobre un área del desempeño del LLM que refleja los sesgos cognitivos humanos pero que se desvía en su impacto sobre la precisión del razonamiento. Al abordar esta limitación, el camino a seguir implica refinar las capacidades de razonamiento de la IA para alinearse mejor con la naturaleza fluida y dinámica de los procesos de pensamiento humano, lo que en última instancia conducirá a modelos más versátiles y confiables capaces de navegar las complejidades de las tareas de razonamiento del mundo real.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 37k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🚀 LLMWare lanza SLIM: pequeños modelos de llamada de funciones especializadas para la automatización de varios pasos [Check out all the models]

Decodificación del razonamiento de la IA: una inmersión profunda en el impacto del pedido local en modelos de lenguaje grandes de Google DeepMind y investigadores de Stanford

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Los investigadores de Moonshot AI y Tsinghua proponen PrfaaS: una arquitectura KVCache entre centros de datos que replantea cómo se ofrecen los LLM a escala

Conozca OpenMythos: una reconstrucción de código abierto de PyTorch de Claude Mythos donde los parámetros de 770 millones coinciden con un transformador de 1,3 mil millones

Soñando en Cubos | Hacia la ciencia de datos

You missed

Los investigadores de Moonshot AI y Tsinghua proponen PrfaaS: una arquitectura KVCache entre centros de datos que replantea cómo se ofrecen los LLM a escala

La neumonía adquirida en el hospital se reduce con el cepillado diario

El número de cadáveres no identificados en Baleares ha aumentado más de un 50% en los últimos cuatro años

Trama de The Long Game de la temporada 2 de Heat Rivalry, nuevos personajes modelo a seguir