Conozca OmniControl: un enfoque de inteligencia artificial para incorporar señales de control espacial flexibles en un modelo de generación de movimiento humano condicionado por texto basado en el proceso de difusión

Los investigadores abordan la cuestión de combinar señales de control espacial sobre cada articulación en un momento dado en la producción de movimiento humano condicionado por texto. Las técnicas modernas basadas en la difusión pueden producir movimientos humanos variados y realistas, pero les resulta difícil incorporar señales de control espacial variables, que son esenciales para muchas aplicaciones. Por ejemplo, un modelo debe regular la posición de la mano para contactar la taza en un lugar y momento determinados y comprender la semántica de “levantar” para sintetizar la acción de levantar una taza. Del mismo modo, al moverse por una habitación con techos bajos, una modelo debe regular cuidadosamente la altura de la cabeza durante un tiempo determinado para evitar accidentes.

Dado que son difíciles de explicar en el mensaje textual, estas señales de control a menudo se entregan como posiciones globales de articulaciones de interés en fotogramas clave. Sin embargo, los enfoques anteriores basados en pintura no pueden incorporar señales de control flexibles debido a las representaciones de postura humana relativas elegidas. Los límites se deben principalmente a la ubicación relativa de las articulaciones y la pelvis entre sí y con respecto a la estructura anterior. Por lo tanto, la posición pélvica global suministrada en la señal de control debe traducirse a una ubicación relativa con respecto al fotograma anterior que se introducirá en el fotograma clave. De manera similar a como se deben ingresar las posiciones de otras articulaciones, también se debe convertir la posición global de la pelvis.

Sin embargo, las ubicaciones relativas de la pelvis entre el proceso de generación de difusión deben estar más presentes o corregidas en ambos casos. Para integrar cualquier señal de control espacial en articulaciones distintas de la pelvis, primero se debe necesitar ayuda para manejar las escasas limitaciones de la pelvis. Otros presentan un modelo de dos etapas, pero todavía tiene problemas para regular otras articulaciones debido a las limitadas señales de control sobre la pelvis. En este estudio, investigadores de la Universidad Northeastern y Google Research sugieren OmniControl, un nuevo modelo de generación humana basado en difusión que puede incluir señales de control espacial flexibles sobre cualquier articulación en un momento dado. Sobre la base de OmniControl, se agrega una guía realista para regular la creación de movimientos humanos.

Figura 1: Con una indicación escrita y señales de control espacial adaptables, OmniControl puede producir gestos humanos convincentes. Los fotogramas posteriores de la serie se indican con colores más oscuros. Las señales de control de entrada se muestran mediante líneas o puntos verdes.

Para que el modelo funcione bien, utilizan las mismas representaciones relativas de la postura humana para entrada y salida. Sin embargo, sugieren, a diferencia de los enfoques actuales, convertir el movimiento producido en coordenadas globales para compararlo directamente con las señales de control de entrada en el módulo de guía espacial, donde los gradientes del error se emplean para mejorar el movimiento. Resuelve las deficiencias de los métodos anteriores basados en pintura al eliminar la incertidumbre sobre la ubicación relativa de la pelvis. Además, en comparación con enfoques anteriores, permite el refinamiento iterativo dinámico del movimiento producido, mejorando la precisión del control.

Aunque logra imponer límites espaciales, la guía espacial por sí sola frecuentemente resulta en problemas de deriva y movimientos humanos anormales. Presentan la guía de realismo, que genera los residuos de las características en cada capa de atención del modelo de difusión de movimiento, para resolver estos problemas inspirándose en la producción de imágenes controlada. Estos residuos pueden alterar explícita y densamente el movimiento de todo el cuerpo. Para producir movimientos realistas, coherentes y consistentes con restricciones espaciales, tanto la guía espacial como la de realismo son cruciales, y son complementarias para equilibrar la precisión del control y el realismo del movimiento.

Los estudios que utilizan HumanML3D y KIT-ML demuestran que OmniControl funciona significativamente mejor que las técnicas de generación de movimiento basadas en texto más avanzadas para el control pélvico en términos de realismo de movimiento y precisión de control. Sin embargo, incorporar las limitaciones espaciales sobre cualquier articulación en cualquier momento es donde OmniControl sobresale. Además, como se ilustra en la Fig. 1, pueden entrenar un solo modelo para controlar numerosas articulaciones de forma colectiva en lugar de por separado (por ejemplo, las muñecas izquierda y derecha).

Estas características de OmniControl hacen posible varias aplicaciones posteriores, como vincular un movimiento humano producido al paisaje y los objetos circundantes, como se ve en la última columna de la Fig. 1. Sus breves contribuciones son: (1) Hasta donde saben, OmniControl es la primera estrategia capaz de combinar señales de control espacial sobre cualquier articulación en cualquier momento. (2) Para equilibrar con éxito la precisión del control y el realismo del movimiento en el movimiento producido, sugieren un módulo de control único que utiliza guía espacial y realismo. (3) Las pruebas demuestran que OmniControl puede controlar articulaciones adicionales utilizando un único modelo en la creación de movimiento basada en texto, estableciendo un nuevo estándar para controlar la pelvis y abriendo varias aplicaciones en la producción de movimiento humano.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.

Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.

▶️ Ahora vea las actualizaciones de la investigación de IA en nuestro canal de Youtube [Watch Now]

Conozca OmniControl: un enfoque de inteligencia artificial para incorporar señales de control espacial flexibles en un modelo de generación de movimiento humano condicionado por texto basado en el proceso de difusión

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Conozca OpenMythos: una reconstrucción de código abierto de PyTorch de Claude Mythos donde los parámetros de 770 millones coinciden con un transformador de 1,3 mil millones

Soñando en Cubos | Hacia la ciencia de datos

Un tutorial de codificación para ejecutar PrismML Bonsai 1-Bit LLM en CUDA con GGUF, evaluación comparativa, Chat, JSON y RAG

You missed

Hasta el 4% de las personas pueden oír colores o saborear palabras. He aquí por qué. : Alerta científica

Se advierte a las tropas que serán procesadas por crímenes de guerra si siguen órdenes ilegales de Trump

La familia y los fanáticos desean a Pawan Kalyan una pronta recuperación después de su cirugía

Conozca OpenMythos: una reconstrucción de código abierto de PyTorch de Claude Mythos donde los parámetros de 770 millones coinciden con un transformador de 1,3 mil millones