Conozca OAT: el nuevo tokenizador de acción que brinda escalamiento estilo LLM e inferencia flexible en cualquier momento al mundo de la robótica




Los robots están entrando en su era GPT-3. Durante años, los investigadores han intentado entrenar robots utilizando los mismos modelos autorregresivos (AR) que impulsan los modelos de lenguaje grande (LLM). Si un modelo puede predecir la siguiente palabra de una oración, debería poder predecir el siguiente movimiento de un brazo robótico. Sin embargo, un muro técnico ha bloqueado este progreso: los movimientos continuos del robot son difíciles de convertir en tokens discretos.

Un equipo de investigadores de la Universidad de Harvard y la Universidad de Stanford ha lanzado un nuevo marco llamado Tokenización de acción ordenada (OAT) para cerrar esta brecha.

https://arxiv.org/pdf/2602.04215

La confusa realidad de las acciones de los robots

La tokenización convierte datos complejos en una secuencia de números discretos (tokens). Para los robots, estas acciones son señales continuas como los ángulos de las articulaciones. Las estrategias anteriores tenían defectos fatales:

Binning: Convierte cada dimensión de acción en un ‘binning’. Si bien es simple, crea secuencias masivas que ralentizan el entrenamiento y la inferencia. FAST (Tokenización de secuencia de acción en el espacio de frecuencia): utiliza matemáticas para comprimir movimientos en coeficientes de frecuencia. Es rápido pero a menudo produce secuencias “no descodificables” en las que pequeños errores hacen que el robot se detenga o se mueva de forma impredecible. Tokenizadores latentes aprendidos: utilizan un “diccionario” aprendido de movimientos. Son seguros pero carecen de un orden específico, lo que significa que el modelo trata los tokens tempranos y tardíos como igualmente importantes.

https://arxiv.org/pdf/2602.04215

Las tres reglas de oro de la OAT

El equipo de investigación identificó tres propiedades esenciales (desiderata) para un tokenizador de robot funcional:

Alta compresión (P.1): las secuencias de tokens deben ser cortas para mantener los modelos eficientes. Decodificabilidad total (P.2): El decodificador debe ser una función total, asegurando que cada secuencia de token posible se asigne a un movimiento válido. Orden causal (P.3): los tokens deben tener una estructura de izquierda a derecha donde los primeros tokens capturan el movimiento global y los tokens posteriores refinan los detalles.

La salsa secreta: abandonos y registros anidados

OAT utiliza un codificador transformador con tokens de registro para resumir los fragmentos de acción. Para obligar al modelo a aprender primero las cosas “importantes”, el equipo de investigación utilizó un enfoque innovador llamado Nested Dropout.

https://arxiv.org/pdf/2602.04215

Rompiendo los puntos de referencia

El equipo de investigación probó OAT en más de 20 tareas en 4 puntos de referencia de simulación principales. OAT superó consistentemente a la Política de Difusión (DP) estándar de la industria y a los tokenizadores anteriores.

Resultados de rendimiento

Punto de referenciaTasa de éxito de OATTasa de éxito de DPRecuento de tokens BinRecuento de tokens OATLIBERO56,3% 36,6% 224 8 RoboMimic73,1% 67,1% 224 8 MetaWorld24,4% 19,3% 128 8 RoboCasa54,6% 54,0% 384 8

Inferencia ‘en cualquier momento’: velocidad versus precisión

El beneficio más práctico de OAT es la destokenización basada en prefijos. Dado que los tokens están ordenados por importancia, puedes detener el modelo antes de tiempo.

Acciones generales: decodificar solo 1 o 2 tokens le da al robot una dirección general rápidamente, lo cual es útil para tareas de baja latencia. Acciones finas: la generación de los 8 tokens proporciona los detalles de alta precisión necesarios para inserciones complejas.

Esto permite un equilibrio fluido entre el costo de cálculo y la fidelidad de la acción que los tokenizadores de longitud fija anteriores no podían ofrecer.

Conclusiones clave

Resolver la brecha de tokenización: OAT aborda una limitación fundamental en la aplicación de modelos autorregresivos a la robótica mediante la introducción de un tokenizador aprendido que logra simultáneamente una alta compresión, decodificabilidad total y ordenamiento causal. Representación ordenada mediante abandono anidado: al utilizar el abandono anidado durante el entrenamiento, OAT obliga al modelo a priorizar patrones de movimiento generales y generales en los primeros tokens, mientras reserva los tokens posteriores para refinamientos detallados. Descodificabilidad y confiabilidad totales: a diferencia de los métodos anteriores de dominio de frecuencia como FAST, OAT garantiza que el detokenizador sea una función total, lo que significa que cada secuencia de token posible genera un fragmento de acción válido, lo que evita fallas de ejecución en tiempo de ejecución. Inferencia flexible ‘en cualquier momento’: la estructura ordenada permite la decodificación basada en prefijos, lo que permite a los robots ejecutar acciones aproximadas a partir de solo uno o dos tokens para ahorrar cálculos o secuencias completas de ocho tokens para tareas de alta precisión. Rendimiento superior en todos los puntos de referencia: las políticas autorregresivas equipadas con OAT superan consistentemente las líneas base basadas en difusión y otros esquemas de tokenización, logrando una tasa de éxito agregada del 52,3 % y resultados superiores en tareas ‘Pick & Place’ y ‘Stack Cups’ del mundo real.

Consulte la página de artículos, repositorios y proyectos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.







Artículo anteriorUna implementación de codificación para establecer flujos de trabajo rigurosos de control de versiones y pruebas de regresión para modelos de lenguaje grandes utilizando MLflow