NVIDIA AI Libera GRASPGEN: un marco basado en la difusión para el agarre de 6-DOF en robótica

El agarre robótico es una tarea fundamental para la automatización y la manipulación, crítico en dominios que abarcan desde la recolección industrial hasta el servicio y la robótica humanoide. A pesar de las décadas de investigación, lograr un robo robusto de 6 grados de uso general (6-DOF) sigue siendo un problema abierto desafiante. Recientemente, Nvidia presentado Agarreun nuevo marco de generación de agarre basado en difusión que promete traer un rendimiento de última generación (SOTA) con flexibilidad, escalabilidad y confiabilidad del mundo real sin precedentes.

El desafío y la motivación

Generación de agarre precisa y confiable en el espacio 3D, donde las poses de agarre deben expresarse en términos de posición y orientación, reuza los algoritmos que pueden generalizarse a través de objetos desconocidos, diversos tipos de pinza y condiciones ambientales desafiantes que incluyen observaciones parciales y desorden. Los planificadores clásicos basados en modelos dependen en gran medida de la estimación precisa de pose de objetos o los escaneos de visión múltiple, lo que los hace poco prácticos para la configuración en el flujo. Los enfoques de aprendizaje basados en datos son prometedores, pero los métodos actuales tienden a luchar con la generalización y la escalabilidad, especialmente al cambiar a nuevas pinzas o entornos desordenados del mundo real.

Otra limitación de muchos sistemas de agarre existentes es su dependencia de grandes cantidades de costosas recopilación de datos del mundo real o ajuste específico de dominio. Recopilar y anotar conjuntos de datos de agarre real es costoso y no se transfiere fácilmente entre los tipos de pinza o las complejidades de la escena.

Idea clave: simulación a gran escala y modelos de difusión Generación generativa

GrapGen de NVIDIA gira de la costosa recopilación de datos del mundo real para aprovechar la generación de datos sintéticos a gran escala en la simulación, utilizando particularmente la gran diversidad de las mallas de objetos del conjunto de datos de objetos (más de 8,000 objetos) y las interacciones de la parrilla simuladas (más de 53 millones de graspes generados).

Graspgen formula la generación de agarre como un Modelo probabilístico de difusión de difusión de Deno (DDPM) operando en el SE (3) Espacio de pose (que comprende rotaciones y traducciones 3D). Los modelos de difusión, bien establecidos en la generación de imágenes, refinan iterativamente muestras de ruido aleatorio hacia posturas realistas de agarre condicionadas en una representación de nubes de puntos centrada en el objeto. Este enfoque de modelado generativo captura naturalmente la distribución multimodal de medidas válidas en objetos complejos, lo que permite la diversidad espacial crítica para manejar el desorden y las limitaciones de tareas.

Arquitectura Grapgen: transformador de difusión y entrenamiento en el generador

  • Codificador del transformador de difusión: GraspGen emplea una arquitectura novedosa que combina una potente esqueleta de PointTransformerv3 (PTV3) para codificar las entradas de nubes de puntos 3D sin estructurar en las representaciones latentes, seguido de los pasos de difusión iterativos que predicen los residuos de ruido en el espacio de la pose de agarre. Esto difiere de los trabajos anteriores que se basan en PointNet ++ o representaciones de agarre basadas en el contacto, ofreciendo una mejor calidad de agarre y eficiencia computacional.
  • Entrenamiento en el generador de discriminadores: Gaspgen innova en el paradigma de capacitación de GRAP GRASP ORYER o DISCRIMINATOR. En lugar de capacitar en conjuntos de datos estáticos fuera de línea de Solpes exitosos/fallidos, el discriminador aprende sobre muestras de “generador”: poses de GRASP producidas por el modelo generativo de difusión durante el entrenamiento. Estos expertos en el generador exponen el discriminador a errores típicos o sesgos del modelo, como los agarres ligeramente en colisión o valores atípicos lejos de las superficies de los objetos, lo que le permite identificar mejor y filtrar falsos positivos durante la inferencia.
  • Compartir peso eficiente: El discriminador reutiliza el codificador de objeto congelado del generador de difusión, que requiere solo un perceptrón multicapa ligero (MLP) entrenado desde cero para una clasificación de éxito. Esto conduce a una reducción de 21x en el consumo de memoria en comparación con las arquitecturas de discriminadores anteriores.
  • Representaciones de normalización y rotación de traducción: Para optimizar el rendimiento de la red, los componentes de traducción de los Grasps se normalizan en función de las estadísticas del conjunto de datos y las rotaciones codificadas a través de álgebra de mentira o representaciones 6D, garantizando una predicción de pose estable y precisa.

El agarre de múltiples embarcaciones y la flexibilidad ambiental

Graspgen se demuestra en tres tipos de pinza:

  • Pastureros paralelos-baw (Franka Panda, robotiq-2f-140)
  • Purpers de succión (modeladas analíticamente)
  • Purpers de múltiples dedos (extensiones futuras planificadas)

Crucialmente, el marco se generaliza a:

  • Nubes de punto parciales versus completos: Se realiza de manera robusta tanto en las observaciones de punto de vista único con oclusiones como en nubes de puntos múltiples fusionados.
  • Objetos individuales y escenas desordenadas: Evaluación Fetchbenchun desafiante punto de referencia de agarre desordenado, mostró que agarre las mejores tareas y las tasas de éxito de agarre.
  • Sim a transferencia real: Entrenado puramente en simulación, GrapGen exhibió una fuerte transferencia de disparo cero a plataformas robóticas reales bajo ruidosas entradas visuales, ayudadas por aumentos que simulan la segmentación y el ruido del sensor.

Benchmarking y rendimiento

  • Fetchbench Benchmark: En las evaluaciones de simulación que cubren 100 escenas abarrotadas diversas y más de 6,000 intentos de agarre, GRASPGEN superó a las líneas de base de última generación como Gaspnet y M2T2 mediante amplios márgenes (mejora de éxito de la tarea de casi el 17% sobre el contact Gaspnet). Incluso un planificador de Oracle con posturas de agarre terrestre luchó por empujar el éxito de las tareas más allá del 49%, destacando el desafío.
  • Ganancias de precisión de cobertura: En los puntos de referencia estándar (conjunto de datos de acrónimo), GrapGen mejoró sustancialmente la precisión del éxito de GRAP y la cobertura espacial en comparación con los modelos anteriores de difusión y punto de contacto, lo que demuestra una mayor diversidad y calidad de propuestas de agarre.
  • Experimentos de robot reales: Usando un robot UR10 con detección de profundidad RealSense, GaspGen logró el 81.3% de alcance general del éxito en varias configuraciones del mundo real (incluido el desorden, las cestas, los estantes), superando a M2T2 en un 28%. Generó posturas enfocadas exclusivamente en objetos objetivo, evitando agarres espurios vistos en los modelos centrados en la escena.

Lanzamiento del conjunto de datos y código abierto

Nvidia lanzó el conjunto de datos GRASPGEN públicamente para fomentar el progreso de la comunidad. Consiste en aproximadamente 53 millones de agarres simulados en 8,515 mallas de objetos con licencia bajo políticas de Comunes Creative Commons permisivas. El conjunto de datos se generó utilizando NVIDIA ISAAC SIM con un etiquetado detallado de éxito basado en la física, incluidas las pruebas de agitación de estabilidad.

Junto con el conjunto de datos, la base de código GRASPGEN y los modelos previos a la aparición están disponibles bajo licencias de código abierto al https://github.com/nvlabs/graspgencon material de proyecto adicional en https://graspgen.github.io/.

Conclusión

GrapGen representa un avance importante en el agarre robótico de 6-DOF, introduciendo un marco generativo basado en difusión que supera los métodos previos mientras se escala en múltiples excrementos, complejidades de escenas y condiciones de observabilidad. Su nueva receta de entrenamiento en el generador para la puntuación de GRAP mejora decisivamente el filtrado de los errores del modelo, lo que lleva a ganancias dramáticas en el éxito de agarre y el rendimiento a nivel de tarea tanto en simulación como en robots reales.

Al publicar públicamente tanto el código como un conjunto de datos de agarre sintético masivo, NVIDIA permite a la comunidad de robótica desarrollar y aplicar aún más estas innovaciones. El marco de GraspGen consolida la simulación, el aprendizaje y los componentes de robótica modular en una solución llave en mano, avanzando la visión del agarre robótico confiable y del mundo real como un bloque de construcción fundacional ampliamente aplicable en la manipulación robótica de propósito general.


Mira el Papel, Proyecto y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Suscríbete ahora a nuestro boletín de IA


Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.