Subscando salidas faciales Smolvla: un modelo compacto de acción en idioma de visión para robótica asequible y eficiente
A pesar del progreso reciente en el control robótico a través de los modelos de acción-idioma de visión a gran escala (VLA), la implementación del mundo real sigue siendo limitado…