Investigadores de Stanford, NVIDIA y UT Austin proponen un plan de estudios entre episodios (CEC): un nuevo algoritmo de inteligencia artificial para impulsar la eficiencia del aprendizaje y la generalización de los agentes transformadores

Los problemas de toma de decisiones secuenciales están atravesando una transición importante debido al cambio de paradigma provocado por la introducción de modelos básicos. Estos modelos, como los modelos de transformadores, han cambiado por completo una serie de campos, incluida la planificación, el control y la representación visual previamente entrenada. A pesar de estos impresionantes avances, aplicar estos algoritmos ávidos de datos a campos como la robótica con menos datos presenta una enorme barrera. Plantea la cuestión de si es posible maximizar la cantidad limitada de datos a los que se puede acceder, independientemente de su fuente o calidad, para respaldar un aprendizaje más eficaz.

Para abordar estos desafíos, un grupo de investigadores presentó recientemente un algoritmo único denominado Currículo episódico cruzado (CEC). La técnica CEC aprovecha las formas en que las diferentes experiencias se distribuyen de manera diferente cuando se organizan en un plan de estudios. El objetivo de CEC es mejorar la eficiencia de aprendizaje y generalización de los agentes Transformer. El concepto fundamental de CEC es la incorporación de experiencias episódicas cruzadas en un modelo Transformer para crear un plan de estudios. Las pruebas de aprendizaje en línea y las demostraciones de calidad mixta se organizan paso a paso en este plan de estudios, que captura la curva de aprendizaje y la mejora de las habilidades a lo largo de varios episodios. CEC crea un sólido mecanismo de atención entre episodios utilizando las potentes capacidades de reconocimiento de patrones de los modelos Transformer.

El equipo ha proporcionado dos escenarios de ejemplo para ilustrar la eficacia de la CCA, que son los siguientes.

Aprendizaje por refuerzo multitarea con control discreto de DeepMind Lab: este escenario utiliza CEC para resolver un desafío de aprendizaje por refuerzo multitarea con control discreto. El plan de estudios desarrollado por la CEC captura el camino del aprendizaje en contextos tanto individualizados como progresivamente complicados. Esto permite a los agentes dominar gradualmente tareas cada vez más difíciles aprendiendo y adaptándose en pequeños pasos.

RoboMimic, aprendizaje por imitación utilizando datos de calidad mixta para un control continuo: el segundo escenario, que es pertinente para RoboMimic, utiliza control continuo y aprendizaje por imitación con datos de calidad mixta. El objetivo del plan de estudios que creó la CEC es registrar el aumento en el nivel de experiencia de los manifestantes.

Las políticas producidas por la CCA funcionan excepcionalmente bien y tienen fuertes generalizaciones en ambos escenarios, lo que sugiere que la CCA es una estrategia viable para mejorar la adaptabilidad y la eficiencia del aprendizaje de los agentes transformadores en una variedad de contextos. El método del Currículo Interepisódico comprende dos pasos esenciales, que son los siguientes.

Preparación de datos curriculares: La preparación de datos curriculares es el paso inicial en el proceso del CEC. Esto implica poner los eventos en un orden y estructura particular. Para ilustrar claramente los patrones curriculares, estos eventos se organizan en un orden particular. Estos patrones pueden adoptar muchas formas diferentes, como la mejora de las políticas en entornos concretos, el progreso del aprendizaje en entornos cada vez más difíciles y un aumento de la experiencia del demostrador.

Entrenamiento del modelo de atención entre episodios: esta es la segunda etapa importante en el entrenamiento del modelo. El modelo está entrenado para anticipar acciones durante esta fase de entrenamiento. El aspecto único de este método es que el modelo puede mirar episodios anteriores además del actual. Es capaz de internalizar las mejoras y ajustes de políticas observados en los datos del plan de estudios. Debido al uso de la experiencia previa por parte del modelo, el aprendizaje puede ocurrir de manera más eficiente.

Por lo general, se utilizan triángulos de colores, que sustituyen a los modelos causales de Transformadores, para mostrar estas etapas visualmente. Estos modelos son esenciales para el método CEC porque facilitan la inclusión de eventos episódicos cruzados en el proceso de aprendizaje. Las acciones recomendadas por el modelo, indicadas por “a^”, son esenciales para la toma de decisiones.

Revisar la Papel, Códigoy Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

▶️ Ahora vea las actualizaciones de la investigación de IA en nuestro canal de Youtube [Watch Now]

Investigadores de Stanford, NVIDIA y UT Austin proponen un plan de estudios entre episodios (CEC): un nuevo algoritmo de inteligencia artificial para impulsar la eficiencia del aprendizaje y la generalización de los agentes transformadores

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Comparadas con las 16 mejores herramientas de codificación de IA generativa en 2026: características y mejor ajuste

Un mes después de aprender ingeniería de datos en público: esto es lo que no escribí

Baidu lanza OCR ilimitado, un modelo 3B que mantiene plana la caché KV para el análisis de documentos largos

You missed

Colossal y el gobierno de EE. UU. están creando una ‘BioVault’ para especies en peligro de extinción

Los routers domésticos son considerados el riesgo de seguridad de Internet olvidado en Europa

La nueva ley evitará la demolición de cientos de edificios costeros en Baleares

Francia acaba de vivir el día más caluroso jamás registrado