A pesar del progreso reciente en el control robótico a través de los modelos de acción-idioma de visión a gran escala (VLA), la implementación del mundo real sigue siendo limitado por los requisitos de hardware y datos. La mayoría de los modelos VLA dependen de los troncos basados en transformadores con miles de millones de parámetros, lo que resulta en una memoria significativa y costos de cálculo. Esto limita la experimentación a laboratorios y nubes con recursos bien, excluyendo a los profesionales que trabajan con hardware de menor costo. Además, gran parte del progreso actual en la investigación de VLA sigue siendo propiedad o basada en metodologías no reproducibles, lo que impide la investigación abierta. Finalmente, la heterogeneidad de los datos a través de plataformas robóticas (diferencias en morfología, sensores y modos de control) pospone un desafío adicional para la generalización y el aprendizaje multiplataforma.
Hugging Face presenta a Smolvla: un marco de VLA abierto y ligero
Presenta la cara abrazada Smolvlaun modelo compacto de acción-idioma de visión desarrollado para la asequibilidad y la eficiencia de implementación. A diferencia de los VLA convencionales, SMOLVLA está capacitado por completo en conjuntos de datos recolectados por la comunidad y está optimizado para ejecutarse en entornos de una sola GPU o CPU. La arquitectura del modelo integra una versión recortada de un modelo de lenguaje de visión previo al estado de visión (SMOLVLM-2) y un experto en acción basado en transformadores. Esta estructura permite un control eficiente de bajo nivel de las instrucciones del lenguaje natural y las entradas de la cámara RGB.
Una característica distintiva de Smolvla es su pila de inferencia asíncrona, que desacopla la predicción de acción de la ejecución. Este diseño permite un control de baja latencia adecuado para aplicaciones en tiempo real, incluso en configuraciones con recursos limitados. Smolvla se publica bajo una licencia abierta con código acompañante, datos de capacitación y herramientas de implementación.
Descripción general arquitectónica y compensaciones de diseño
El modelo SMOLVLA está estructurado en dos componentes principales:
- Módulo de percepción (SMOLVLM-2): Un codificador de visión compacto de la visión de provocación procesa secuencias de imágenes RGB, estados sensoriomotores e instrucciones de lenguaje. Para la eficiencia, el modelo limita los tokens visuales a través de la reducción de muestras y solo usa la mitad inferior de las capas del transformador, basado en hallazgos empíricos de que las capas anteriores a menudo producen características más transferibles.
- Experto en acción: Un transformador liviano, entrenado con coincidencia de flujo, predice secuencias de acciones de control continuo. El experto en acción alterna entre las capas de autocuración y atención cruzada, equilibrando la coherencia de la acción interna y el acondicionamiento en las entradas de percepción. El enmascaramiento causal se aplica para hacer cumplir la consistencia temporal.
Para reducir la sobrecarga computacional, las proyecciones lineales se utilizan para alinear las dimensiones del token de las modalidades. Se generan fragmentos de acción en lugar de predicciones de un solo paso, reduciendo la frecuencia de las llamadas de inferencia. El modelo está entrenado utilizando BFLOAT16 Precision y la compilación JIT de Torch para la optimización del tiempo de ejecución.
Evaluación empírica: simulación y rendimiento del mundo real
SMOLVLA se evalúa en las tareas de referencia de simulación (Libero y Meta-World) y las tareas robóticas del mundo real utilizando plataformas SO100 de bajo costo y SO101. El modelo está entrenado desde cero en ~ 23k episodios en 481 conjuntos de datos de la comunidad, con etiquetas de tareas generadas automáticamente utilizando un VLM. Las métricas de evaluación incluyen tasas de éxito a nivel de tarea en condiciones de distribución y desactualización.
En el Liberación Benchmark, Smolvla (0.45b) logra una tasa de éxito promedio de 87.3%, que coincide o superan los modelos más grandes como π₀ (3.3b). En Meta-mundoel modelo supera a las políticas de difusión y a las VLA a menor escala en los niveles de dificultad de la tarea. Estos resultados son notables teniendo en cuenta la menor huella de entrenamiento de Smolvla y la ausencia de prisión previa de la robótica.
En entornos del mundo real, SMOLVLA logra tasas de éxito promedio de 78.3% en tareas de selección, apilamiento y clasificación, con el rendimiento de los actos (entrenados desde cero) y π₀ (Finetuned). Además, Smolvla se generaliza a través de realizaciones robóticas, manteniendo el rendimiento en SO101 a pesar de la capacitación exclusiva en datos SO100.
Implicaciones de rendimiento de la inferencia asincrónica
La pila de inferencias asíncronas de Smolvla mejora la eficiencia de control al superponer la predicción y la ejecución. En comparación con la inferencia sincrónica tradicional, este enfoque reduce el tiempo promedio de la tarea en ~ 30% y duplica el número de acciones completadas en escenarios de tiempo fijo. Esto es particularmente beneficioso para las implementaciones de borde donde los retrasos de inferencia degradan el rendimiento en tiempo real.
Conclusión
SMOLVLA demuestra que los modelos VLA compactos, reproducibles y de código abierto pueden admitir un control robótico competente en hardware de bajo costo. A través de cuidadosas elecciones arquitectónicas (poda de letreros, predicción de acción fragmentada y ejecución asincrónica), Smolvla mantiene el rendimiento y al tiempo que reduce significativamente las demandas computacionales.
La pila de capacitación e implementación abierta del modelo, junto con evaluaciones del mundo real, ofrece una base práctica para una mayor investigación en aprendizaje de robots eficiente y accesible. Las direcciones futuras incluyen la expansión de los conjuntos de datos de los bodimentos cruzados, la capacidad del modelo de escala sin sacrificar la latencia y explorar la capacitación conjunta sobre los corpuses multimodales más allá de los datos de robótica.
Mira el Papel y Modelo en la cara abrazada . Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.