Conozca HOI-Diff: síntesis basada en texto de interacciones 3D entre humanos y objetos utilizando modelos de difusión

En respuesta a la desafiante tarea de generar interacciones humano-objeto (HOI) realistas en 3D guiadas por indicaciones textuales, investigadores de la Universidad Northeastern, la Universidad Dianzi de Hangzhou, Stability AI y Google Research han introducido una solución innovadora llamada HOI-Diff. Las complejidades de las interacciones entre humanos y objetos en la visión por computadora y la inteligencia artificial han planteado un obstáculo importante para las tareas de síntesis. HOI-Diff se destaca por adoptar un diseño modular que descompone efectivamente la tarea de síntesis en tres módulos principales: un modelo de difusión de doble rama (HOI-DM) para la generación de HOI 3D aproximado, un modelo de difusión de predicción de posibilidades (APDM) para estimar puntos de contacto y un mecanismo de corrección de interacción guiado por posibilidades para interacciones precisas entre humanos y objetos.

Los enfoques tradicionales para la síntesis de movimiento basada en texto a menudo se quedaron cortos al concentrarse únicamente en generar movimientos humanos aislados, descuidando las interacciones cruciales con los objetos. HOI-Diff aborda esta limitación mediante la introducción de un modelo de difusión de doble rama (HOI-DM) capaz de generar simultáneamente movimientos humanos y de objetos basados ​​en indicaciones textuales. Este diseño innovador mejora la coherencia y el realismo de los movimientos generados a través de un módulo de comunicación de atención cruzada entre las ramas de generación de movimiento humano y de objetos. Además, el equipo de investigación introduce un modelo de difusión de predicción de posibilidades (APDM) para predecir las áreas de contacto entre humanos y objetos durante interacciones guiadas por indicaciones textuales.

https://arxiv.org/abs/2312.06553

El modelo de difusión de predicción de posibilidades (APDM) juega un papel crucial en la eficacia general de HOI-Diff. Operando independientemente de los resultados de HOI-DM, el APDM actúa como un mecanismo correctivo, abordando errores potenciales en los movimientos generados. En particular, la generación estocástica de puntos de contacto por parte del APDM introduce diversidad en los movimientos sintetizados. Los investigadores integran además los puntos de contacto estimados en un sistema clasificador-guía, asegurando un contacto cercano y preciso entre humanos y objetos, formando así HOI coherentes.

Para validar experimentalmente las capacidades de HOI-Diff, los investigadores anotaron el conjunto de datos BEHAVE con descripciones de texto, proporcionando un marco integral de capacitación y evaluación. Los resultados demuestran la capacidad del modelo para producir HOI realistas que abarcan diversas interacciones y diferentes tipos de objetos. El diseño modular y la corrección de interacción guiada por la capacidad muestran mejoras significativas en la generación de interacciones dinámicas y estáticas.

Las evaluaciones comparativas con los métodos convencionales, que se centran principalmente en generar movimientos humanos de forma aislada, revelan el rendimiento superior de HOI-Diff. Para ello, los investigadores adaptan dos modelos de referencia, MDM y PriorMDM. Los resultados visuales y cuantitativos subrayan la eficacia del modelo a la hora de generar interacciones realistas y precisas entre humanos y objetos.

Sin embargo, el equipo de investigación reconoce ciertas limitaciones. Los conjuntos de datos existentes para HOI 3D plantean limitaciones a la diversidad de acciones y movimientos, lo que presenta desafíos para sintetizar interacciones a largo plazo. La precisión de la estimación de la asequibilidad sigue siendo un factor crítico que influye en el desempeño general del modelo.

En conclusión, HOI-Diff representa una solución novedosa y eficaz al intrincado problema de la síntesis de la interacción 3D entre humanos y objetos. El diseño modular y los mecanismos de corrección innovadores lo posicionan como un enfoque prometedor para aplicaciones como animación y desarrollo de entornos virtuales. Abordar los desafíos relacionados con las limitaciones de los conjuntos de datos y la precisión de la estimación de la asequibilidad a medida que avanza el campo podría mejorar aún más el realismo y la aplicabilidad del modelo en diversos dominios. HOI-Diff es un testimonio de los continuos avances en la síntesis basada en texto y el modelado de interacción humano-objeto.


Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 34k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Madhur Garg es pasante de consultoría en MarktechPost. Actualmente está cursando su Licenciatura en Ingeniería Civil y Ambiental en el Instituto Indio de Tecnología (IIT), Patna. Comparte una gran pasión por el aprendizaje automático y disfruta explorando los últimos avances en tecnologías y sus aplicaciones prácticas. Con un gran interés en la inteligencia artificial y sus diversas aplicaciones, Madhur está decidido a contribuir al campo de la ciencia de datos y aprovechar su impacto potencial en diversas industrias.