El equipo 3D Digital Human de Tencent Hunyuan ha lanzado HY-Motion 1.0, una familia de generación de movimiento humano de texto a 3D de peso abierto que escala la coincidencia de flujo basada en transformador de difusión a parámetros 1B en el dominio del movimiento. Los modelos convierten indicaciones en lenguaje natural más una duración esperada en clips de movimiento humano en 3D en un esqueleto SMPL-H unificado y están disponibles en GitHub y Hugging Face con código, puntos de control y una interfaz Gradio para uso local.
¿Qué ofrece HY-Motion 1.0 a los desarrolladores?
HY-Motion 1.0 es una serie de modelos de generación de movimiento humano de texto a 3D construidos en un transformador de difusión, DiT, entrenado con un objetivo de coincidencia de flujo. La serie de modelos presenta 2 variantes, HY-Motion-1.0 con parámetros de 1.0B como modelo estándar y HY-Motion-1.0-Lite con parámetros de 0.46B como opción liviana.
Ambos modelos generan animaciones de personajes en 3D basadas en esqueletos a partir de simples indicaciones de texto. El resultado es una secuencia de movimiento en un esqueleto SMPL-H que se puede integrar en animación 3D o en procesos de juegos, por ejemplo para humanos digitales, cinemáticas y personajes interactivos. El lanzamiento incluye scripts de inferencia, una CLI orientada a lotes y una aplicación web Gradio, y es compatible con macOS, Windows y Linux.
Motor de datos y taxonomía.
Los datos de entrenamiento provienen de tres fuentes: videos de movimiento humano, datos de captura de movimiento y recursos de animación 3D para la producción de juegos. El equipo de investigación comienza con 12 millones de videoclips de alta calidad de HunyuanVideo, ejecuta la detección de límites de toma para dividir escenas y un detector humano para mantener clips con personas, luego aplica el algoritmo GVHMR para reconstruir pistas de movimiento SMPL X. Las sesiones de captura de movimiento y las bibliotecas de animación 3D aportan aproximadamente 500 horas de secuencias de movimiento adicionales.
Todos los datos se redirigen a un esqueleto SMPL-H unificado mediante herramientas de ajuste de malla y reorientación. Un filtro de varias etapas elimina clips duplicados, posturas anormales, valores atípicos en la velocidad de las articulaciones, desplazamientos anómalos, segmentos estáticos largos y artefactos como el deslizamiento del pie. Luego, los movimientos se canonicalizan, se vuelven a muestrear a 30 fps y se segmentan en clips de menos de 12 segundos con un marco mundial fijo, el eje Y hacia arriba y el personaje mirando hacia el eje Z positivo. El corpus final contiene más de 3000 horas de movimiento, de las cuales 400 horas son movimiento 3D de alta calidad con subtítulos verificados.
Además de esto, el equipo de investigación define una taxonomía de 3 niveles. En el nivel superior hay 6 clases, Locomoción, Deportes y Atletismo, Fitness y Actividades al Aire Libre, Actividades Diarias, Interacciones Sociales y Ocio y Acciones de Personajes de Juego. Estos se expanden en más de 200 categorías de movimiento de grano fino en las hojas, que cubren tanto acciones atómicas simples como combinaciones de movimientos concurrentes o secuenciales.
Representación de movimiento y HY-Motion DiT
HY-Motion 1.0 utiliza el esqueleto SMPL-H con 22 articulaciones corporales sin manos. Cada cuadro es un vector de 201 dimensiones que concatena la traslación de raíz global en el espacio 3D, la orientación global del cuerpo en una representación de rotación continua de 6D, 21 rotaciones de articulaciones locales en forma de 6D y 22 posiciones de articulaciones locales en coordenadas 3D. Se eliminaron las etiquetas de velocidades y contacto del pie porque ralentizaban el entrenamiento y no ayudaban a la calidad final. Esta representación es compatible con flujos de trabajo de animación y cercana a la representación del modelo de DART.
La red central es un HY Motion DiT híbrido. Primero aplica bloques de flujo dual que procesan señales de movimiento latentes y tokens de texto por separado. En estos bloques, cada modalidad tiene sus propias proyecciones QKV y MLP, y un módulo de atención conjunta permite que los tokens de movimiento consulten características semánticas de los tokens de texto manteniendo la estructura específica de la modalidad. Luego, la red cambia a bloques de flujo único que concatenan tokens de movimiento y texto en una secuencia y los procesan con módulos de atención espacial y de canal paralelos para realizar una fusión multimodal más profunda.
Para el acondicionamiento de texto, el sistema utiliza un esquema de codificador dual. Qwen3 8B proporciona incrustaciones a nivel de token, mientras que un modelo CLIP-L proporciona funciones de texto global. Un refinador de tokens bidireccional corrige el sesgo de atención causal del LLM para la generación no autorregresiva. Estas señales alimentan el DiT a través del acondicionamiento de normalización de capa adaptativa. La atención es asimétrica, los tokens de movimiento pueden atender a todos los tokens de texto, pero los tokens de texto no atienden al movimiento, lo que evita que los estados de movimiento ruidosos corrompan la representación del lenguaje. La atención temporal dentro de la rama de movimiento utiliza una ventana deslizante estrecha de 121 marcos, que concentra la capacidad en la cinemática local y al mismo tiempo mantiene los costos manejables para clips largos. La incrustación completa de posición rotativa se aplica después de concatenar texto y tokens de movimiento para codificar posiciones relativas en toda la secuencia.
Flow Matching, reescritura rápida y formación
HY-Motion 1.0 utiliza Flow Matching en lugar de la difusión de eliminación de ruido estándar. El modelo aprende un campo de velocidad a lo largo de una trayectoria continua que interpola entre el ruido gaussiano y los datos de movimiento real. Durante el entrenamiento, el objetivo es un error cuadrático medio entre las velocidades previstas y reales a lo largo de este camino. Durante la inferencia, la ecuación diferencial ordinaria aprendida se integra del ruido a una trayectoria limpia, lo que proporciona un entrenamiento estable para secuencias largas y se ajusta a la arquitectura DiT.
Un módulo independiente de predicción de duración y reescritura rápida mejora el seguimiento de instrucciones. Utiliza Qwen3 30B A3B como modelo base y está entrenado en indicaciones de estilo de usuario sintéticas generadas a partir de subtítulos en movimiento con un canal VLM y LLM, por ejemplo Gemini 2.5 Pro. Este módulo predice una duración de movimiento adecuada y reescribe indicaciones informales en texto normalizado que es más fácil de seguir para el DiT. Primero se entrena con un ajuste fino supervisado y luego se refina con optimización de políticas relativas al grupo, utilizando Qwen3 235B A22B como modelo de recompensa que califica la coherencia semántica y la plausibilidad de la duración.
La formación sigue un plan de estudios de 3 etapas. La etapa 1 realiza un entrenamiento previo a gran escala en el conjunto de datos completo de 3000 horas para aprender un movimiento amplio previo y la alineación básica del movimiento del texto. La etapa 2 realiza ajustes finos en el conjunto de alta calidad de 400 horas para afinar los detalles del movimiento y mejorar la corrección semántica con una tasa de aprendizaje menor. La etapa 3 aplica el aprendizaje por refuerzo, primero la optimización directa de preferencias utilizando 9228 pares de preferencias humanas seleccionadas muestreadas de aproximadamente 40 000 pares generados, luego Flow GRPO con una recompensa compuesta. La recompensa combina una puntuación semántica de un modelo de recuperación de movimiento de texto y una puntuación física que penaliza artefactos como el deslizamiento del pie y la deriva de la raíz, bajo un término de regularización KL para mantenerse cerca del modelo supervisado.
Puntos de referencia, comportamiento de escalado y limitaciones
Para la evaluación, el equipo crea un conjunto de pruebas de más de 2000 indicaciones que abarcan las 6 categorías de taxonomía e incluyen acciones simples, concurrentes y secuenciales. Los evaluadores humanos califican el seguimiento de instrucciones y la calidad del movimiento en una escala del 1 al 5. HY-Motion 1.0 alcanza una puntuación promedio de seguimiento de instrucciones de 3,24 y una puntuación SSAE del 78,6 por ciento. Los sistemas básicos de conversión de texto a movimiento como DART, LoM, GoToZero y MoMask logran puntuaciones entre 2,17 y 2,31 con SSAE entre 42,7 por ciento y 58,0 por ciento. En cuanto a la calidad del movimiento, HY-Motion 1.0 alcanza un promedio de 3,43 frente a 3,11 de la mejor línea base.
Los experimentos de escalamiento estudian modelos DiT con 0.05B, 0.46B, 0.46B entrenados solo en 400 horas y parámetros 1B. El seguimiento de instrucciones mejora constantemente con el tamaño del modelo, y el modelo 1B alcanza un promedio de 3,34. La calidad del movimiento se satura alrededor de la escala 0,46B, donde los modelos 0,46B y 1B alcanzan promedios similares entre 3,26 y 3,34. La comparación del modelo 0,46B entrenado en 3000 horas y el modelo 0,46B entrenado solo en 400 horas muestra que un mayor volumen de datos es clave para la alineación de las instrucciones, mientras que la curación de alta calidad mejora principalmente el realismo.
Conclusiones clave
Coincidencia de flujo DiT de mil millones de escala para movimiento: HY-Motion 1.0 es el primer modelo de coincidencia de flujo basado en transformador de difusión escalado al nivel de parámetro 1B específicamente para texto a movimiento humano en 3D, dirigido a instrucciones de alta fidelidad que se siguen en diversas acciones. Corpus de movimiento curado a gran escala: el modelo está preentrenado con más de 3000 horas de datos de movimiento de animación, mocap y reconstruidos y ajustado en un subconjunto de alta calidad de 400 horas, todo redireccionado a un esqueleto SMPL H unificado y organizado en más de 200 categorías de movimiento. Arquitectura DiT híbrida con fuerte condicionamiento de texto: HY-Motion 1.0 utiliza un DiT híbrido de flujo dual y flujo único con atención asimétrica, atención temporal de banda estrecha y codificadores de texto duales, Qwen3 8B y CLIP L, para fusionar el nivel de token y la semántica global en trayectorias de movimiento. Canal de capacitación y reescritura de indicaciones alineadas con RL: un módulo dedicado basado en Qwen3 30B predice la duración del movimiento y reescribe las indicaciones del usuario, y el DiT está aún más alineado con la optimización de preferencia directa y el GRPO de flujo utilizando recompensas semánticas y físicas, lo que mejora el realismo y el seguimiento de la instrucción más allá de la capacitación supervisada.
Consulte el documento y los códigos completos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.