Con el desarrollo de los grandes modelos de lenguaje (LLM, por sus siglas en inglés), como GPT-3 y GPT-4, el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) ha evolucionado increíblemente en los últimos años. Basándose en sus inusuales capacidades de razonamiento, estos modelos pueden comprender y generar textos similares a los humanos. El razonamiento se puede diferenciar en dos tipos: uno en el que se extraen conclusiones específicas a partir de principios generales, llamado razonamiento deductivo, y otro en el que se extraen generalizaciones más amplias a partir de ejemplos particulares, llamado razonamiento inductivo. Comprender cómo los LLM manejan estos dos tipos de razonamiento es crucial para evaluar su verdadero potencial en diversas aplicaciones.
Uno de los principales retos a los que se enfrenta la PNL en este sentido es identificar qué tipo de razonamiento (deductivo o inductivo) es más complicado para los LLM. Si bien los modelos GPT-3 y GPT-4 funcionan muy bien, por ejemplo, se ha suscitado cierta controversia sobre si estos modelos realmente razonan o simplemente imitan patrones aprendidos a partir de grandes cantidades de datos. Este artículo investiga esta cuestión aislando y analizando por separado las competencias concretas de los LLM en tareas de razonamiento deductivo e inductivo. El trabajo actual va a establecer si los LLM pueden realizar un razonamiento básico o simplemente utilizar patrones memorizados para aproximarse a las respuestas.
Estudios anteriores utilizaron aritmética, acertijos lógicos y tareas de comprensión del lenguaje para investigar la capacidad de razonamiento de los LLM. Estos trabajos deben diferenciarse del razonamiento deductivo e inductivo. Aun así, ambos estudios de la literatura los agrupan, lo que hace que sea difícil basarse en uno de ellos individualmente. Los enfoques tradicionales, como el uso de estímulos de entrada-salida (IO) para investigar las capacidades de razonamiento de los LLM, casi siempre han confundido las habilidades deductivas e inductivas dentro de los modelos. Como tal, no ha sido posible establecer si los LLM son excelentes en el razonamiento o si esencialmente están explotando asociaciones aprendidas sin comprender realmente las tareas.
Un equipo de investigadores de la Universidad de California en Los Ángeles y Amazon respondió con un nuevo paradigma denominado SolverLearner. Este nuevo marco se basa en la premisa central de disociar el razonamiento inductivo del razonamiento deductivo de los LLM. SolverLearner ha sido diseñado para probar las capacidades de razonamiento inductivo puro de los LLM mediante funciones de aprendizaje que asignan entradas a salidas utilizando solo ejemplos en contexto. Debido a que prueba solo el razonamiento inductivo, SolverLearner brinda una mejor estimación de qué tan bien los LLM pueden generalizar a partir de ejemplos particulares, independientemente de cualquier regla o patrón preprogramado internamente.
SolverLearner funciona en dos fases separadas: propuesta de función y ejecución de función. En la propuesta de función, un LLM selecciona una función que podría asignar puntos de datos de entrada a sus respectivos valores de salida. Este proceso puede compararse con el razonamiento inductivo humano cuando se aprenden nuevos conceptos a partir de ejemplos. La singularidad de SolverLearner es que separa el proceso de aprendizaje del LLM de las influencias a través del razonamiento deductivo, que generalmente se combina con métodos tradicionales. Finalmente, la función propuesta se ejecuta durante la etapa de ejecución utilizando un intérprete de código externo como Python para evaluar su precisión. Una división del aprendizaje y la ejecución en dichas etapas brinda a los investigadores la oportunidad de aislar y analizar las capacidades de razonamiento inductivo del LLM en su forma pura, sin interferencias debido a sus competencias de razonamiento deductivo.
Los resultados del estudio indican que los modelos de lenguaje grandes en general, y GPT-4 en particular, pueden alcanzar puntuaciones de razonamiento inductivo de vanguardia cuando se prueban con el marco SolverLearner. Estos resultados demuestran que GPT-4 ha mantenido de manera constante una precisión casi impecable, con un ACC de 1 en la mayoría de los casos, por lo que siempre ha mostrado una fuerte capacidad de generalización a partir de ejemplos en contexto. Por ejemplo, si se prueba GPT-4 en operaciones aritméticas basadas en diferentes bases, inferiría correctamente el sistema base en el que tenía que calcular el resultado sin que se le dijera explícitamente que lo hiciera. Esto significaría que GPT-4 aprende los patrones subyacentes para resolver problemas nuevos e invisibles.
Por otra parte, también presenta algunos desafíos importantes relacionados con el razonamiento deductivo de los LLM. Si bien el GPT-4 obtuvo buenos resultados en el razonamiento inductivo en este estudio, los autores señalan que en las tareas que giran en torno al razonamiento deductivo, especialmente en aquellas que requieren habilidades contrafácticas, ya que el modelo tiene que implementar algo que aprendió en situaciones diferentes a las que tenía durante el entrenamiento, el resultado siguió siendo deficiente. En particular, cuando se expuso a problemas aritméticos en una base numérica nueva, el rendimiento empeoró drásticamente, lo que refleja la debilidad en su lógica deductiva aplicada a nuevas situaciones. Este sorprendente contraste del rendimiento en tareas de razonamiento inductivo y deductivo indica además que, aunque los LLM como el GPT-4 son fuertes generalizadores, dichos modelos tienen un desafío importante cuando el razonamiento requiere una estricta adherencia a las reglas lógicas disponibles.
Por lo tanto, este trabajo pone de relieve una importante perspectiva sobre las capacidades de razonamiento de los LLM. La introducción del marco SolverLearner permitió a los investigadores comenzar a aislar y evaluar las capacidades de razonamiento inductivo de los LLM y, de este modo, demostrar una sorprendente variedad de puntos fuertes que poseen. Por otro lado, este estudio actual destaca el hecho de que es necesario realizar investigaciones futuras para lograr un nivel mucho mejor de competencia de razonamiento deductivo de los LLM, especialmente en tareas que implican la aplicación de reglas aprendidas a situaciones nuevas. Los resultados mostraron que, si bien los LLM han logrado un progreso notable en PNL, aún queda mucho trabajo por hacer para comprender y mejorar plenamente sus capacidades de razonamiento.
Echa un vistazo a la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’
Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.