Microsoft AI introduce el Transformador de estado de creencia (BST): Mejora de la modelado de secuencia condicionada por objetivos con contexto bidireccional

Los modelos de transformadores han transformado el modelado de lenguaje al habilitar la generación de texto a gran escala con propiedades emergentes. Sin embargo, luchan con tareas que requieren una planificación extensa. Los investigadores han explorado modificaciones en arquitectura, objetivos y algoritmos para mejorar su capacidad para lograr objetivos. Algunos enfoques van más allá del modelado tradicional de secuencia de izquierda a derecha al incorporar un contexto bidireccional, como se ve en modelos entrenados en información pasada y futura. Otros intentan optimizar el orden de generación, como el modelado de variable latente o la decodificación binaria basada en árboles, aunque los métodos autorregresivos de izquierda a derecha a menudo siguen siendo superiores. Un enfoque más reciente implica capacitar conjuntamente un transformador para la decodificación hacia adelante y hacia atrás, mejorando la capacidad del modelo para mantener los estados de creencias compactos.

La investigación adicional ha explorado la predicción de múltiples tokens simultáneamente para mejorar la eficiencia. Algunos modelos han sido diseñados para generar más de un token a la vez, lo que lleva a una generación de texto más rápida y robusta. Se ha demostrado que el pretrete en la predicción múltiple de token mejora el rendimiento a gran escala. Otra idea clave es que los transformadores codifican los estados de creencia de manera no compacto dentro de su flujo residual. En contraste, los modelos de espacio de estado ofrecen representaciones más compactas, pero vienen con compensaciones. Por ejemplo, ciertos marcos de capacitación luchan con estructuras gráficas específicas, revelando limitaciones en las metodologías existentes. Estos hallazgos destacan los esfuerzos continuos para refinar las arquitecturas de transformadores para un mejor modelado de secuencia estructurado y eficiente.

Investigadores de Microsoft Research, la Universidad de Pennsylvania, UT Austin y la Universidad de Alberta introdujeron el Transformador Estatal de Creencias (BST). Este modelo mejora la predicción de la siguiente token considerando contextos de prefijo y sufijo. A diferencia de los transformadores estándar, BST codifica la información bidireccionalmente, prediciendo el siguiente token después del prefijo y el token anterior antes del sufijo. Este enfoque mejora el rendimiento en tareas desafiantes, como la generación de texto acondicionada por objetivos y problemas de predicción estructurados como los gráficos de estrellas. Al aprender un estado de creencia compacto, BST supera a los métodos convencionales en el modelado de secuencias, ofreciendo una inferencia más eficiente y representaciones de texto más fuertes, con implicaciones prometedoras para aplicaciones a gran escala.

A diferencia de los modelos tradicionales de predicción de la próxima token, el BST está diseñado para mejorar el modelado de secuencias integrando codificadores hacia adelante y hacia atrás. Utiliza un codificador delantero para prefijos y un codificador hacia atrás para sufijos, prediciendo los tokens siguientes y anteriores. Este enfoque evita que los modelos adopten estrategias de atajos y mejora el aprendizaje de dependencia a largo plazo. BST supera a las líneas de base en la navegación Graph Star, donde la lucha de los transformadores solo hacia adelante. Las ablaciones confirman que el objetivo del estado de creencia y el codificador atrasado son esenciales para el rendimiento. Durante la inferencia, BST omite al codificador hacia atrás, manteniendo la eficiencia al tiempo que garantiza el comportamiento condicionado por objetivos.

A diferencia de los modelos solo hacia adelante y de múltiples token, el BST construye efectivamente un estado de creencia compacto. Un estado de creencia codifica toda la información necesaria para predicciones futuras. El BST aprende tales representaciones modelando conjuntamente prefijos y sufijos, lo que permite la generación de texto condicionada por objetivos. Los experimentos que usan historias pequeñas muestran que BST supera al modelo de relleno (FIM), produciendo narrativas más coherentes y estructuradas. La evaluación con GPT-4 revela la capacidad de narración superior de BST, con conexiones más claras entre prefijo, texto generado y sufijo. Además, BST se destaca en la generación de texto incondicional seleccionando secuencias con terminaciones de alta verosimilitud, lo que demuestra sus ventajas sobre los predictores tradicionales de la siguiente token.

En conclusión, el BST mejora la predicción de la próxima token acondicionada por objetivos al abordar las limitaciones de los modelos tradicionales solo hacia adelante. Construye un estado de creencia compacto, que codifica toda la información necesaria para predicciones futuras. A diferencia de los transformadores convencionales, BST predice el siguiente token para un prefijo y el token anterior para un sufijo, lo que lo hace más efectivo en tareas complejas. Los resultados empíricos demuestran sus ventajas en la redacción de historias, superando el enfoque de relleno en el medio. Si bien nuestros experimentos validan su rendimiento en las tareas a pequeña escala, se necesita más investigación para explorar su escalabilidad y aplicabilidad a problemas más amplios acondicionados por objetivos, mejorar la eficiencia y la calidad de la inferencia.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.