Investigaciones recientes destacan que los Transformers, aunque tienen éxito en tareas como aritmética y algoritmos, necesitan ayuda con la generalización de longitudes, donde los modelos manejan entradas de longitudes invisibles. Esto es crucial para tareas algorítmicas como la codificación o el razonamiento, donde la longitud de la entrada a menudo se correlaciona con la dificultad del problema. Los modelos de lenguajes grandes enfrentan esta limitación incluso cuando se escalan debido a su profundidad fija. Enfoques como el razonamiento en cadena de pensamientos y los métodos de bloc de notas ofrecen algunas mejoras. Una solución prometedora es Looped Transformer, que procesa las entradas de forma iterativa, lo que permite pasos adaptativos basados en la complejidad del problema y mejora la generalización de longitud para tareas algorítmicas.
Investigadores de la Universidad de Wisconsin-Madison, el MIT y la UC Berkeley demuestran que los transformadores en bucle con pasos adaptativos mejoran la generalización de longitud para tareas algorítmicas. Centrándose en funciones con soluciones iterativas que utilizan operaciones RASP-L, entrenan transformadores en bucle sin supervisión intermedia, basándose únicamente en la entrada, la salida y el recuento de pasos. Por inferencia, el modelo determina los pasos necesarios para resolver una tarea. Su método muestra que los transformadores de bucle adaptan el número de bucles durante la inferencia, lo que permite una generalización de longitud exitosa. El estudio presenta problemas de n-RASP-L y demuestra un rendimiento mejorado en tareas como Copiar, Paridad y Suma en comparación con los enfoques básicos.
El estudio explora incrustaciones posicionales, RNN, jerarquía de Chomsky, transformadores universales, representaciones de entrada y razonamiento de cadena de pensamiento (CoT) en generalización de longitud. Las incrustaciones posicionales mejoran la capacidad de generalización de Transformers, pero no se utilizan en operaciones RASP-L. Los estudios muestran que los RNN y los Transformers luchan con tareas no regulares, mientras que la memoria estructurada ayuda en la generalización libre de contexto. El Transformador en bucle adapta el Transformador universal con supervisión dependiente de pasos, mejorando la generalización de tareas. Además, el razonamiento CoT puede simplificar las predicciones, pero sus pasos pueden introducir una complejidad que dificulte la generalización. El estudio también diferencia entre los métodos de predicción del siguiente token (NTP) y de predicción de respuesta completa (FAP).
El marco n-RASP-L aborda tareas algorítmicas utilizando transformadores de decodificador de profundidad fija sin bucles, lo que dificulta problemas como la suma o la paridad. Para resolver esto, se propone una arquitectura de “transformador en bucle”, que reutiliza bloques decodificadores en múltiples iteraciones según la longitud de entrada. Esto permite resolver tareas como suma y paridad de n dígitos a través de procesos iterativos. El modelo se supervisa de un extremo a otro durante el entrenamiento, utilizando pares de entrada-salida sin pasos intermedios. En la inferencia, se emplean reglas de parada adaptativas, como el oráculo de pasos o los umbrales de confianza, para decidir cuándo terminar el proceso en bucle.
El estudio evalúa la efectividad de los transformadores en bucle para tareas que requieren una generalización de longitud. Se evaluaron varias tareas, incluidas paridad, copia, suma, suma binaria y multiplicación. La configuración experimental implica aprendizaje curricular, y el modelo en bucle muestra una generalización superior, especialmente en el manejo de secuencias más largas que van más allá de la duración del entrenamiento. Las comparaciones con métodos de referencia como NTP básico, NTP con tokens de pausa y capas ligadas al peso muestran que el modelo en bucle con profundidad adaptativa supera significativamente a estos enfoques. Los estudios de ablación resaltan el impacto positivo de la inyección de entrada y la profundidad adaptativa en el rendimiento, con criterios de parada basados en la máxima confianza que garantizan resultados óptimos.
Este trabajo tiene varias limitaciones, incluidas las demandas computacionales del entrenamiento en bucle directo cuando se manejan muchos pasos y datos de entrenamiento limitados debido a limitaciones de recursos. El uso de incrustaciones posicionales más simples (NoPE) también deja margen de mejora. A pesar de requerir números de pasos reales para la supervisión, el método supone menos que la capacitación CoT. En conclusión, los transformadores en bucle con supervisión dependiente de pasos mejoran efectivamente la generalización de la longitud, particularmente para tareas desafiantes de n-RASP-L. Mientras que los modelos anteriores luchaban con longitudes de entrada invisibles, este enfoque adapta el número de pasos durante la inferencia, lo que muestra potencial para aplicaciones más amplias en tareas de razonamiento más complejas.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro SubReddit de 52k+ ML.
Estamos invitando a startups, empresas e instituciones de investigación que estén trabajando en modelos de lenguajes pequeños a participar en este próximo Revista/Informe ‘Small Language Models’ de Marketchpost.com. Esta revista/informe se publicará a finales de octubre o principios de noviembre de 2024. ¡Haga clic aquí para programar una llamada!
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.