Un modelo, tres modalidades: ByteDance lanza Lance para la comprensión, generación y edición de imágenes y videos

Construir un modelo único que pueda comprender y generar imágenes y videos es más difícil de lo que parece. Las dos tareas van en direcciones opuestas. La comprensión se beneficia de características semánticas de alto nivel estrechamente alineadas con el lenguaje. La generación necesita representaciones continuas de bajo nivel que preserven la textura, la geometría y la dinámica temporal. La mayoría de los sistemas manejan esta tensión separándolos en arquitecturas distintas y luego uniéndolos post-hoc.

El equipo de investigación de ByteDance adoptó un enfoque diferente con Lance. En lugar de ensamblar componentes separados, el equipo de investigación diseñó un modelo que integra de forma nativa la comprensión, la generación y la edición en modalidades de imagen y video, entrenado conjuntamente desde el principio.

https://arxiv.org/pdf/2605.18678

Lo que lanza puede hacer

Lance organiza sus capacidades en tres familias de salida: texto (X2T), imágenes (X2I) y videos (X2V). Desde el punto de vista de la comprensión, esto cubre subtítulos de imágenes y videos, respuesta visual a preguntas, OCR, fundamento visual y razonamiento. En el lado de la generación, maneja texto a imagen, texto a video, imagen a video, generación basada en temas, edición de imágenes y edición de video, incluida la edición coherente de múltiples turnos en ambas modalidades.

Esta capacidad todo en uno es un hito importante. Si bien las arquitecturas unificadas estándar generalmente se limitan a la comprensión básica de imágenes y la generación de texto a imagen, Lance se encuentra entre los pocos que unen de forma nativa todo el ecosistema de imágenes y videos a través de tareas de comprensión y generación.

https://arxiv.org/pdf/2605.18678

Cómo funciona la arquitectura

La arquitectura se basa en dos principios: modelado de contexto unificado y vías de capacidad desacopladas.

Para un contexto unificado, Lance convierte todas las entradas (texto, imágenes y videos) en una única secuencia multimodal intercalada compartida. Los tokens de texto provienen de la capa de incrustación Qwen2.5-VL. Para entradas visuales orientadas a la comprensión, el codificador ViT Qwen2.5-VL produce tokens visuales semánticos compactos. Para entradas visuales orientadas a la generación, el codificador VAE causal 3D Wan2.2 codifica imágenes y videos en representaciones latentes continuas, aplicando una reducción de resolución espacial de 16 × y una reducción de resolución temporal de 4 ×. Todos estos tipos de tokens heterogéneos (texto, visual semántico y visual latente) viven en la misma secuencia. Luego, el modelo ejecuta atención causal 3D generalizada en todo el contexto, con tokens de texto que utilizan atención causal y tokens visuales que utilizan atención bidireccional.

Para rutas desacopladas, Lance utiliza una arquitectura de mezcla de expertos de doble flujo inicializada desde Qwen2.5-VL 3B. El experto en comprensión (LLMUND) maneja texto y tokens visuales semánticos, produciendo resultados para el razonamiento multimodal y la generación de texto. El experto en generación (LLMGEN) maneja tokens latentes VAE para síntesis y edición visual. Fundamentalmente, ambos expertos operan sobre la misma secuencia entrelazada compartida: comparten contexto pero no compiten por los mismos parámetros. El experto en comprensión está entrenado con una pérdida de predicción del siguiente token; el experto en generación está entrenado con un objetivo de coincidencia de flujo en un espacio latente continuo. Las dos bajas se combinan con pesos configurables durante todo el entrenamiento.

Codificación posicional rotativa consciente de la modalidad (MaPE)

Ejecutar tokens semánticos ViT, tokens de condición VAE limpios y tokens objetivo VAE ruidosos a través de la misma secuencia crea un problema sutil. El 3D-RoPE estándar codifica posiciones basándose únicamente en el diseño espaciotemporal; no tiene forma de distinguir estos grupos de tokens. Cuando varios grupos de tokens visuales ocupan la misma secuencia, sus límites posicionales se vuelven ambiguos, lo que puede perjudicar la alineación entre tareas.

Lance presenta la codificación posicional rotativa consciente de la modalidad (MaPE) para solucionar este problema. MaPE aplica un desplazamiento temporal fijo a cada grupo de modalidad según su índice en la secuencia. Las coordenadas espaciales permanecen sin cambios, por lo que se conserva el diseño intrínseco de las imágenes y vídeos. El desplazamiento temporal por sí solo es suficiente para separar los grupos de tokens en el espacio posicional global sin alterar el orden temporal dentro de ningún vídeo individual.

La eliminación de MaPE reduce GenEval de 80.94 a 80.56, GEdit-Bench de 6.86 a 6.30 y VBench de 81.81 a 80.95: degradación constante a lo largo de la generación, edición y comprensión.

Capacitación: cuatro etapas, un marco unificado

Lance se entrena a través de cuatro etapas secuenciales, cada una de las cuales se basa en la anterior.

El entrenamiento previo (PT) sienta las bases utilizando aproximadamente mil millones de pares de imagen-texto y 140 millones de pares de video-texto, que cubren 1,5 billones de tokens de entrenamiento. Esta etapa establece la alineación multimodal básica y la capacidad de generación. Los codificadores VAE y ViT están congelados aquí; sólo se entrenan la columna vertebral y los conectores.

La capacitación continua (CT) expande el espacio de tareas al introducir datos multitarea entrelazados (muestras de edición, muestras de generación basadas en temas y datos de comprensión multimodal) en aproximadamente 300 mil millones de tokens. Un programa progresivo de combinación de datos aumenta gradualmente la proporción de tareas más difíciles, como la edición, a medida que avanza la capacitación.

El ajuste fino supervisado (SFT) mejora el seguimiento de instrucciones, la precisión de la edición y la coherencia de la identidad utilizando datos seleccionados de alta calidad en 72 mil millones de tokens.

El aprendizaje por refuerzo (RL) utiliza la optimización de políticas relativas al grupo (GRPO), con PaddleOCR como modelo de recompensa, para mejorar aún más la precisión de la representación del texto y la alineación de la imagen y el texto.

Todo cabe dentro de un presupuesto máximo de formación de 128 GPU.

Resultados

Generación de imágenes. En GenEval, Lance obtiene una puntuación general de 0,90, igualando a TUNA en el primer puesto entre los modelos unificados. Las puntuaciones de las subcategorías incluyen conteo (0,84), colores (0,97) y posición espacial (0,87). En DPG-Bench, Lance obtiene una puntuación general de 84,67, con un modelado de relaciones particularmente sólido, aunque TUNA (86,76) y TUNA-2 (86,54) lideran ese punto de referencia. Para poner la eficiencia del parámetro en perspectiva: Janus-Pro-7B obtiene una puntuación de 0,80 en GenEval; Show-o2 (7B) obtiene una puntuación de 0,76. Lance iguala la puntuación más alta del modelo unificado en los parámetros activados de 3B.

Generación de vídeos. En VBench, Lance logra una puntuación total de 85,11 (utilizando la reescritura de LLM), la más alta entre los modelos unificados. El siguiente mejor modelo unificado, TUNA, obtiene una puntuación de 84,06. Lance también supera a los modelos dedicados de generación exclusiva, incluidos HunyuanVideo (83,43) y Wan2.1-T2V (83,69).

Edición de imágenes. En GEdit-Bench, Lance obtiene una puntuación promedio de 7,30/G_O, la más alta entre los modelos unificados. Lidera el cambio de fondo, modificación de material, cambio de movimiento, embellecimiento de retratos, eliminación de sujetos, reemplazo de sujetos y transferencia de tonos. La modificación del texto se señala como una debilidad restante.

Comprensión del vídeo. En MVBench, Lance logra una puntuación general de 62,0, la más alta entre los modelos unificados. Show-o2 (7B), el siguiente mejor modelo unificado, obtiene una puntuación de 55,7. Lance también supera a varios modelos de solo comprensión con más parámetros, algo notable dado que está entrenado simultáneamente para generación y edición.

Explicador visual de Marktechpost

Paso 1 de 6

Paso 01: requisitos previos

Primero revise su entorno

Antes de clonar el repositorio, confirme que su sistema cumpla con los requisitos mínimos de software y hardware. Lance requiere hardware compatible con CUDA con una VRAM significativa.

🐍

Pitón

3.10 o superior

Requerido

CUDA

12.4 o superior

Requerido

🖥️

VRAM de GPU

40 GB mínimo

Para inferencia

📦

Licencia

apache 2.0

Código abierto

Nota: Se requiere una GPU con al menos 40 GB de VRAM para ejecutar la inferencia. CUDA 12.4+ es obligatorio; las versiones inferiores no son compatibles oficialmente.

Paso 02: clonar el repositorio

Clonar desde GitHub

Clona el repositorio oficial de Lance de ByteDance en GitHub. El repositorio incluye scripts de inferencia, interfaz Gradio, scripts de referencia y archivos de configuración del modelo.

clon de git https://github.com/bytedance/Lance cd Lance

La estructura del repositorio que verá después de la clonación:

inferencia_lance.py

Script de inferencia principal para todas las tareas.

inferencia_lance.sh

Envoltorio de Shell con parámetros configurables

lanza_gradio_t2v_v2t.py

Gradio UI para tareas T2V y V2T

configuración/ejemplos/

Configuraciones de ejemplo JSON por tipo de tarea

Paso 03: instalar dependencias

Instalar los paquetes necesarios

Instale todas las dependencias de Python proporcionadas requisitos.txt archivo. Se recomienda encarecidamente utilizar un entorno virtual dedicado o un entorno conda antes de la instalación.

# Crear y activar un entorno conda (recomendado) conda create -n lance-env python=3.10 -y conda enable lance-env # Instalar todas las dependencias pip install -r requisitos.txt

Consejo: El uso de un entorno Conda limpio evita conflictos de dependencia con otros proyectos en la misma máquina.

Paso 04: descargar los pesos del modelo

Descargar Lance—Puntos de control 3B

Descargue todos los puntos de control de modelos necesarios del repositorio oficial de Hugging Face en bytedance-research/Lance. Después de la descarga, coloque todos los archivos en el descargas/ directorio dentro de su repositorio clonado.

# Instale la CLI de Hugging Face si aún no está instalada pip install huggingface_hub # Descargue el modelo de pesas huggingface-cli descargar bytedance-research/Lance \ –local-dir downloads/

Su directorio debería verse así después de la descarga:

Lance/ └── descargas/ └── Lance_3B_Video/ ◄ los pesos del modelo van aquí

Nota: Los pesos de los modelos son archivos grandes. Asegúrese de tener suficiente espacio en disco y una conexión estable antes de descargar.

Paso 05: Ejecutar inferencia

Ejecutar tareas a través de la CLI

Lance proporciona una interfaz de línea de comandos unificada para todas las tareas a través de inferencia_lance.sh. Configure los parámetros en la parte superior del script de shell antes de ejecutarlo. Las tareas admitidas se enumeran a continuación.

t2i

Generación de texto a imagen

t2v

Generación de texto a vídeo

editar_imagen

Edición de imágenes desde instrucciones.

vídeo_editar

Edición de video desde instrucciones.

x2t_imagen

Comprensión de imágenes / VQA

x2t_video

Comprensión de vídeo/subtítulos

Comando de ejemplo para generación de texto a video a 480p:

bash inference_lance.sh \ –TASK_NAME t2v \ –MODEL_PATH descargas/Lance_3B_Video \ –RESOLUTION video_480p \ –NUM_FRAMES 121 \ –VIDEO_HEIGHT 480 \ –VIDEO_WIDTH 848 \ –SAVE_PATH_GEN resultados/t2v

Paso 06: Interfaz de usuario y consejos de Gradio

Inicie la interfaz Gradio (opcional)

Para una interfaz visual que cubre tareas de texto a video y de video a texto, Lance incluye una aplicación Gradio lista para ejecutar.

Python lance_gradio_t2v_v2t.py

Consejos rápidos

Para todas las tareas, siga el formato de solicitud utilizado en las configuraciones de ejemplo proporcionadas en configuración/ejemplos/. El uso del formato recomendado normalmente conduce a una mejor calidad de generación.

x2t_image_example.json

Ejemplos de comprensión de imágenes y VQA

x2t_video_example.json

Ejemplos de comprensión y subtitulado de vídeos

Personalizar: Puedes modificar TASK_DEFAULT_CONFIGS en inferencia_lance.py para configurar sus propias muestras de datos predeterminadas para cada tipo de tarea.

Conclusiones clave

Lance es un modelo multimodal unificado nativo de parámetros activados por 3B que maneja la comprensión, generación y edición de imágenes y videos dentro de un único marco entrenado conjuntamente. Una arquitectura de mezcla de expertos de doble flujo con codificación posicional rotativa consciente de la modalidad (MaPE) desacopla las vías de comprensión y generación mientras las mantiene en un contexto multimodal intercalado compartido. Lance logra 0,90 en GenEval y 85,11 en VBench, la puntuación total más alta entre los modelos unificados, entrenados con un presupuesto máximo de 128 GPU. En MVBench, Lance obtiene una puntuación de 62,0, la más alta entre los modelos unificados, superando al Show-o2 (7B) con 55,7, al tiempo que admite generación y edición. Lance es de código abierto bajo Apache 2.0, con pesos disponibles en Hugging Face.

Consulte la página de papel, pesos de modelo y proyecto. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros