Construir un modelo único que pueda comprender y generar imágenes y videos es más difícil de lo que parece. Las dos tareas van en direcciones opuestas. La comprensión se beneficia de características semánticas de alto nivel estrechamente alineadas con el lenguaje. La generación necesita representaciones continuas de bajo nivel que preserven la textura, la geometría y la dinámica temporal. La mayoría de los sistemas manejan esta tensión separándolos en arquitecturas distintas y luego uniéndolos post-hoc.
El equipo de investigación de ByteDance adoptó un enfoque diferente con Lance. En lugar de ensamblar componentes separados, el equipo de investigación diseñó un modelo que integra de forma nativa la comprensión, la generación y la edición en modalidades de imagen y video, entrenado conjuntamente desde el principio.
Lo que lanza puede hacer
Lance organiza sus capacidades en tres familias de salida: texto (X2T), imágenes (X2I) y videos (X2V). Desde el punto de vista de la comprensión, esto cubre subtítulos de imágenes y videos, respuesta visual a preguntas, OCR, fundamento visual y razonamiento. En el lado de la generación, maneja texto a imagen, texto a video, imagen a video, generación basada en temas, edición de imágenes y edición de video, incluida la edición coherente de múltiples turnos en ambas modalidades.
Esta capacidad todo en uno es un hito importante. Si bien las arquitecturas unificadas estándar generalmente se limitan a la comprensión básica de imágenes y la generación de texto a imagen, Lance se encuentra entre los pocos que unen de forma nativa todo el ecosistema de imágenes y videos a través de tareas de comprensión y generación.
Cómo funciona la arquitectura
La arquitectura se basa en dos principios: modelado de contexto unificado y vías de capacidad desacopladas.
Para un contexto unificado, Lance convierte todas las entradas (texto, imágenes y videos) en una única secuencia multimodal intercalada compartida. Los tokens de texto provienen de la capa de incrustación Qwen2.5-VL. Para entradas visuales orientadas a la comprensión, el codificador ViT Qwen2.5-VL produce tokens visuales semánticos compactos. Para entradas visuales orientadas a la generación, el codificador VAE causal 3D Wan2.2 codifica imágenes y videos en representaciones latentes continuas, aplicando una reducción de resolución espacial de 16 × y una reducción de resolución temporal de 4 ×. Todos estos tipos de tokens heterogéneos (texto, visual semántico y visual latente) viven en la misma secuencia. Luego, el modelo ejecuta atención causal 3D generalizada en todo el contexto, con tokens de texto que utilizan atención causal y tokens visuales que utilizan atención bidireccional.
Para rutas desacopladas, Lance utiliza una arquitectura de mezcla de expertos de doble flujo inicializada desde Qwen2.5-VL 3B. El experto en comprensión (LLMUND) maneja texto y tokens visuales semánticos, produciendo resultados para el razonamiento multimodal y la generación de texto. El experto en generación (LLMGEN) maneja tokens latentes VAE para síntesis y edición visual. Fundamentalmente, ambos expertos operan sobre la misma secuencia entrelazada compartida: comparten contexto pero no compiten por los mismos parámetros. El experto en comprensión está entrenado con una pérdida de predicción del siguiente token; el experto en generación está entrenado con un objetivo de coincidencia de flujo en un espacio latente continuo. Las dos bajas se combinan con pesos configurables durante todo el entrenamiento.
Codificación posicional rotativa consciente de la modalidad (MaPE)
Ejecutar tokens semánticos ViT, tokens de condición VAE limpios y tokens objetivo VAE ruidosos a través de la misma secuencia crea un problema sutil. El 3D-RoPE estándar codifica posiciones basándose únicamente en el diseño espaciotemporal; no tiene forma de distinguir estos grupos de tokens. Cuando varios grupos de tokens visuales ocupan la misma secuencia, sus límites posicionales se vuelven ambiguos, lo que puede perjudicar la alineación entre tareas.
Lance presenta la codificación posicional rotativa consciente de la modalidad (MaPE) para solucionar este problema. MaPE aplica un desplazamiento temporal fijo a cada grupo de modalidad según su índice en la secuencia. Las coordenadas espaciales permanecen sin cambios, por lo que se conserva el diseño intrínseco de las imágenes y vídeos. El desplazamiento temporal por sí solo es suficiente para separar los grupos de tokens en el espacio posicional global sin alterar el orden temporal dentro de ningún vídeo individual.
La eliminación de MaPE reduce GenEval de 80.94 a 80.56, GEdit-Bench de 6.86 a 6.30 y VBench de 81.81 a 80.95: degradación constante a lo largo de la generación, edición y comprensión.
Capacitación: cuatro etapas, un marco unificado
Lance se entrena a través de cuatro etapas secuenciales, cada una de las cuales se basa en la anterior.
El entrenamiento previo (PT) sienta las bases utilizando aproximadamente mil millones de pares de imagen-texto y 140 millones de pares de video-texto, que cubren 1,5 billones de tokens de entrenamiento. Esta etapa establece la alineación multimodal básica y la capacidad de generación. Los codificadores VAE y ViT están congelados aquí; sólo se entrenan la columna vertebral y los conectores.
La capacitación continua (CT) expande el espacio de tareas al introducir datos multitarea entrelazados (muestras de edición, muestras de generación basadas en temas y datos de comprensión multimodal) en aproximadamente 300 mil millones de tokens. Un programa progresivo de combinación de datos aumenta gradualmente la proporción de tareas más difíciles, como la edición, a medida que avanza la capacitación.
El ajuste fino supervisado (SFT) mejora el seguimiento de instrucciones, la precisión de la edición y la coherencia de la identidad utilizando datos seleccionados de alta calidad en 72 mil millones de tokens.
El aprendizaje por refuerzo (RL) utiliza la optimización de políticas relativas al grupo (GRPO), con PaddleOCR como modelo de recompensa, para mejorar aún más la precisión de la representación del texto y la alineación de la imagen y el texto.
Todo cabe dentro de un presupuesto máximo de formación de 128 GPU.
Resultados
Generación de imágenes. En GenEval, Lance obtiene una puntuación general de 0,90, igualando a TUNA en el primer puesto entre los modelos unificados. Las puntuaciones de las subcategorías incluyen conteo (0,84), colores (0,97) y posición espacial (0,87). En DPG-Bench, Lance obtiene una puntuación general de 84,67, con un modelado de relaciones particularmente sólido, aunque TUNA (86,76) y TUNA-2 (86,54) lideran ese punto de referencia. Para poner la eficiencia del parámetro en perspectiva: Janus-Pro-7B obtiene una puntuación de 0,80 en GenEval; Show-o2 (7B) obtiene una puntuación de 0,76. Lance iguala la puntuación más alta del modelo unificado en los parámetros activados de 3B.
Generación de vídeos. En VBench, Lance logra una puntuación total de 85,11 (utilizando la reescritura de LLM), la más alta entre los modelos unificados. El siguiente mejor modelo unificado, TUNA, obtiene una puntuación de 84,06. Lance también supera a los modelos dedicados de generación exclusiva, incluidos HunyuanVideo (83,43) y Wan2.1-T2V (83,69).
Edición de imágenes. En GEdit-Bench, Lance obtiene una puntuación promedio de 7,30/G_O, la más alta entre los modelos unificados. Lidera el cambio de fondo, modificación de material, cambio de movimiento, embellecimiento de retratos, eliminación de sujetos, reemplazo de sujetos y transferencia de tonos. La modificación del texto se señala como una debilidad restante.
Comprensión del vídeo. En MVBench, Lance logra una puntuación general de 62,0, la más alta entre los modelos unificados. Show-o2 (7B), el siguiente mejor modelo unificado, obtiene una puntuación de 55,7. Lance también supera a varios modelos de solo comprensión con más parámetros, algo notable dado que está entrenado simultáneamente para generación y edición.
Explicador visual de Marktechpost
Paso 1 de 6
Conclusiones clave
Lance es un modelo multimodal unificado nativo de parámetros activados por 3B que maneja la comprensión, generación y edición de imágenes y videos dentro de un único marco entrenado conjuntamente. Una arquitectura de mezcla de expertos de doble flujo con codificación posicional rotativa consciente de la modalidad (MaPE) desacopla las vías de comprensión y generación mientras las mantiene en un contexto multimodal intercalado compartido. Lance logra 0,90 en GenEval y 85,11 en VBench, la puntuación total más alta entre los modelos unificados, entrenados con un presupuesto máximo de 128 GPU. En MVBench, Lance obtiene una puntuación de 62,0, la más alta entre los modelos unificados, superando al Show-o2 (7B) con 55,7, al tiempo que admite generación y edición. Lance es de código abierto bajo Apache 2.0, con pesos disponibles en Hugging Face.
Consulte la página de papel, pesos de modelo y proyecto. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros