Black Forest Labs lanza FLUX.2 [klein]una familia de modelos de imágenes compactas que apunta a la inteligencia visual interactiva en hardware de consumo. FLUJO.2 [klein] amplía la línea FLUX.2 con edición y generación de segunda generación, una arquitectura unificada para texto a imagen e imagen a imagen, y opciones de implementación que van desde GPU locales hasta API en la nube, manteniendo al mismo tiempo una calidad de imagen de última generación.
Desde FLUX.2 [dev] a la inteligencia visual interactiva
FLUJO.2 [dev] es un transformador de flujo rectificado de 32 mil millones de parámetros para la generación y edición de imágenes condicionadas por texto, incluida la composición con múltiples imágenes de referencia, y funciona principalmente con aceleradores de clase de centro de datos. Está ajustado para ofrecer la máxima calidad y flexibilidad, con largos programas de muestreo y altos requisitos de VRAM.
FLUJO.2 [klein] toma la misma dirección de diseño y la comprime en transformadores de flujo rectificado más pequeños con 4 mil millones y 9 mil millones de parámetros. Estos modelos se resumen en programas de muestreo muy cortos, admiten las mismas tareas de edición de texto a imagen y de múltiples referencias, y están optimizados para tiempos de respuesta inferiores a 1 segundo en GPU modernas.
Familia de modelos y capacidades.
El FLUJO.2 [klein] La familia se compone de 4 variantes principales de peso abierto a través de una única arquitectura.
FLUJO.2 [klein] FLUJO 4B.2 [klein] FLUJO 9B.2 [klein] 4B Base FLUJO.2 [klein] Base 9B
FLUJO.2 [klein] 4B y 9B son modelos de destilado escalonado y de destilado guía. Utilizan 4 pasos de inferencia y se posicionan como las opciones más rápidas para cargas de trabajo interactivas y de producción. FLUJO.2 [klein] 9B combina un modelo de flujo 9B con un incrustador de texto Qwen3 8B y se describe como el modelo pequeño insignia en la frontera de Pareto en cuanto a calidad versus latencia en texto a imagen, edición de referencia única y generación de referencias múltiples.
Las variantes Base son versiones sin destilar con programas de muestreo más largos. La documentación los enumera como modelos básicos que preservan la señal de entrenamiento completa y proporcionan una mayor diversidad de salida. Están destinados a ajustes finos, capacitación de LoRA, procesos de investigación y flujos de trabajo personalizados posteriores a la capacitación donde el control es más importante que la latencia mínima.
Todo FLUJO.2 [klein] Los modelos admiten tres tareas principales en la misma arquitectura. Pueden generar imágenes a partir de texto, pueden editar una sola imagen de entrada y pueden realizar generación y edición de múltiples referencias donde varias imágenes de entrada y un mensaje definen conjuntamente la salida de destino.
Latencia, VRAM y variantes cuantificadas
El FLUJO.2 [klein] La página del modelo proporciona tiempos de inferencia aproximados de extremo a extremo en GB200 y RTX 5090. FLUX.2 [klein] 4B es la variante más rápida y aparece entre 0,3 y 1,2 segundos por imagen, según el hardware. FLUJO.2 [klein] 9B apunta a entre 0,5 y 2 segundos con mayor calidad. Los modelos base requieren varios segundos porque se ejecutan con programas de muestreo de 50 pasos, pero ofrecen más flexibilidad para canalizaciones personalizadas.
El FLUJO.2 [klein] La tarjeta modelo 4B indica que 4B cabe en aproximadamente 13 GB de VRAM y es adecuada para GPU como RTX 3090 y RTX 4070. El FLUX.2 [klein] La tarjeta 9B informa un requisito de aproximadamente 29 GB de VRAM y apunta a hardware como el RTX 4090. Esto significa que una única tarjeta de consumo de alta gama puede albergar las variantes destiladas con muestreo de resolución completa.
Para ampliar el alcance a más dispositivos, Black Forest Labs también lanza versiones FP8 y NVFP4 para todos los FLUX.2 [klein] variantes, desarrolladas junto con NVIDIA. La cuantificación de FP8 se describe como hasta 1,6 veces más rápida con hasta un 40 por ciento menos de uso de VRAM, y NVFP4 como hasta 2,7 veces más rápida con hasta un 55 por ciento menos de uso de VRAM en las GPU RTX, manteniendo las mismas capacidades principales.
Comparaciones con otros modelos de imagen
Black Forest Labs evalúa FLUX.2 [klein] a través de comparaciones de estilo Elo en texto e imagen, edición de referencia única y tareas de referencia múltiple. Las tablas de rendimiento muestran FLUX.2 [klein] en la frontera de Pareto de puntuación Elo versus latencia y puntuación Elo versus VRAM. El comentario afirma que FLUX.2 [klein] iguala o supera la calidad de los modelos de imagen basados en Qwen a una fracción de la latencia y VRAM, y supera a Z Image al tiempo que admite texto unificado a imagen y edición de referencias múltiples en una sola arquitectura.
Las variantes básicas intercambian algo de velocidad por una total personalización y ajuste fino, lo que se alinea con su papel como puntos de control básicos para nuevas investigaciones y procesos específicos de dominio.
Conclusiones clave
FLUJO.2 [klein] es una familia compacta de transformadores de flujo rectificado con variantes 4B y 9B que admite texto a imagen, edición de una sola imagen y generación de referencias múltiples en una arquitectura unificada. El FLUX.2 destilado [klein] Los modelos 4B y 9B utilizan 4 pasos de muestreo y están optimizados para inferencias en menos de un segundo en una única GPU moderna, mientras que los modelos Base no destilados utilizan programas más largos y están destinados a ajustes e investigación. Las variantes cuantificadas de FP8 y NVFP4, creadas con NVIDIA, brindan una aceleración de hasta 1,6 veces con una reducción de VRAM de aproximadamente el 40 por ciento para FP8 y una aceleración de hasta 2,7 veces con una reducción de VRAM de aproximadamente un 55 por ciento para NVFP4 en GPU RTX.
Consulte los detalles técnicos, los pesos del repositorio y del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.