Investigadores de la Universidad de Stanford y FAIR Meta presentan CHOIS: un innovador método de inteligencia artificial para sintetizar interacciones realistas en 3D entre humanos y objetos guiadas por el lenguaje

Investigadores de la Universidad de Stanford y FAIR Meta han abordado el problema de generar movimientos sincronizados de objetos y humanos dentro de una escena 3D mediante la introducción de CHOIS. El sistema opera basándose en puntos de ruta de objetos dispersos, un estado inicial de las cosas y de los humanos, y una descripción textual. Controla las interacciones entre humanos y objetos produciendo movimientos realistas y controlables para ambas entidades en el entorno 3D especificado.

Aprovechando conjuntos de datos de captura de movimiento a gran escala y de alta calidad como AMASS, ha aumentado el interés en el modelado generativo del movimiento humano, incluida la síntesis condicionada por la acción y por el texto. Mientras que trabajos anteriores utilizaron formulaciones VAE para la generación de diversos movimientos humanos a partir de texto, CHOIS se centra en las interacciones entre humanos y objetos. A diferencia de los enfoques existentes que a menudo se centran en la síntesis del movimiento de la mano, CHOIS considera los movimientos de todo el cuerpo que preceden al agarre del objeto y predice el movimiento del objeto basándose en los movimientos humanos, ofreciendo una solución integral para simulaciones interactivas de escenas en 3D.

CHOIS aborda una necesidad crítica de sintetizar comportamientos humanos realistas en entornos 3D, cruciales para gráficos por computadora, inteligencia artificial incorporada y robótica. CHOIS avanza en el campo generando movimiento sincronizado de objetos y humanos basado en descripciones de lenguaje, estados iniciales y puntos de referencia de objetos dispersos. Aborda desafíos como la generación de movimiento realista, la adaptación al desorden del entorno y la síntesis de interacciones a partir de descripciones de lenguaje, presentando un sistema integral para interacciones controlables entre humanos y objetos en diversas escenas 3D.

El modelo utiliza un enfoque de difusión condicional para generar movimiento sincronizado de objetos y humanos basado en descripciones del lenguaje, geometría de objetos y estados iniciales. Se incorporan restricciones durante el proceso de muestreo para garantizar un contacto realista entre humanos y objetos. La fase de entrenamiento utiliza una función de pérdida para guiar al modelo en la predicción de transformaciones de objetos sin imponer explícitamente restricciones de contacto.

El sistema CHOIS se evalúa rigurosamente frente a líneas de base y ablaciones, y muestra un rendimiento superior en métricas como coincidencia de condiciones, precisión de contacto, penetración reducida de la mano y el objeto y flotación del pie. En el conjunto de datos FullBodyManipulation, la pérdida de geometría del objeto mejora las capacidades del modelo. CHOIS supera las líneas de base y las ablaciones en el conjunto de datos 3D-FUTURE, lo que demuestra su generalización a nuevos objetos. Los estudios de percepción humana destacan la mejor alineación de CHOIS con el ingreso de texto y la calidad superior de la interacción en comparación con la línea de base. Las métricas cuantitativas, incluidos los errores de posición y orientación, miden la desviación de los resultados generados del movimiento real del terreno.

En conclusión, CHOIS es un sistema que genera interacciones realistas entre humanos y objetos basadas en descripciones de lenguaje y puntos de referencia de objetos dispersos. El procedimiento considera la pérdida de geometría del objeto durante el entrenamiento y emplea términos de guía efectivos durante el muestreo para mejorar el realismo de los resultados. El módulo de interacción aprendido por CHOIS se puede integrar en un proceso para sintetizar interacciones a largo plazo dado el lenguaje y las escenas 3D. CHOIS ha mejorado significativamente en la generación de interacciones realistas entre humanos y objetos alineadas con las descripciones del lenguaje proporcionadas.

Investigaciones futuras podrían explorar la mejora de CHOIS mediante la integración de supervisión adicional, como la pérdida de geometría del objeto, para mejorar la coincidencia del movimiento del objeto generado con los puntos de referencia de entrada. La investigación de términos de orientación avanzados para hacer cumplir las restricciones de contacto puede conducir a resultados más realistas. Ampliar las evaluaciones a diversos conjuntos de datos y escenarios pondrá a prueba las capacidades de generalización de CHOIS. Otros estudios de percepción humana pueden proporcionar conocimientos más profundos sobre las interacciones generadas. La aplicación del módulo de interacción aprendida para generar interacciones a largo plazo basadas en puntos de referencia de objetos de escenas 3D también ampliaría la aplicabilidad de CHOIS.


Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.