Black Forest Labs lanza FLUX.2 [klein]: Modelos de flujo compactos para inteligencia visual interactiva

Black Forest Labs lanza FLUX.2 [klein]una familia de modelos de imágenes compactas que apunta a la inteligencia visual interactiva en hardware de consumo. FLUJO.2 [klein] amplía la línea FLUX.2 con edición y generación de segunda generación, una arquitectura unificada para texto a imagen e imagen a imagen, y opciones de implementación que van desde GPU locales hasta API en la nube, manteniendo al mismo tiempo una calidad de imagen de última generación.

Desde FLUX.2 [dev] a la inteligencia visual interactiva

FLUJO.2 [dev] es un transformador de flujo rectificado de 32 mil millones de parámetros para la generación y edición de imágenes condicionadas por texto, incluida la composición con múltiples imágenes de referencia, y funciona principalmente con aceleradores de clase de centro de datos. Está ajustado para ofrecer la máxima calidad y flexibilidad, con largos programas de muestreo y altos requisitos de VRAM.

FLUJO.2 [klein] toma la misma dirección de diseño y la comprime en transformadores de flujo rectificado más pequeños con 4 mil millones y 9 mil millones de parámetros. Estos modelos se resumen en programas de muestreo muy cortos, admiten las mismas tareas de edición de texto a imagen y de múltiples referencias, y están optimizados para tiempos de respuesta inferiores a 1 segundo en GPU modernas.

Familia de modelos y capacidades.

El FLUJO.2 [klein] La familia se compone de 4 variantes principales de peso abierto a través de una única arquitectura.

FLUJO.2 [klein] FLUJO 4B.2 [klein] FLUJO 9B.2 [klein] 4B Base FLUJO.2 [klein] Base 9B

FLUJO.2 [klein] 4B y 9B son modelos de destilado escalonado y de destilado guía. Utilizan 4 pasos de inferencia y se posicionan como las opciones más rápidas para cargas de trabajo interactivas y de producción. FLUJO.2 [klein] 9B combina un modelo de flujo 9B con un incrustador de texto Qwen3 8B y se describe como el modelo pequeño insignia en la frontera de Pareto en cuanto a calidad versus latencia en texto a imagen, edición de referencia única y generación de referencias múltiples.

Las variantes Base son versiones sin destilar con programas de muestreo más largos. La documentación los enumera como modelos básicos que preservan la señal de entrenamiento completa y proporcionan una mayor diversidad de salida. Están destinados a ajustes finos, capacitación de LoRA, procesos de investigación y flujos de trabajo personalizados posteriores a la capacitación donde el control es más importante que la latencia mínima.

Todo FLUJO.2 [klein] Los modelos admiten tres tareas principales en la misma arquitectura. Pueden generar imágenes a partir de texto, pueden editar una sola imagen de entrada y pueden realizar generación y edición de múltiples referencias donde varias imágenes de entrada y un mensaje definen conjuntamente la salida de destino.

Latencia, VRAM y variantes cuantificadas

El FLUJO.2 [klein] La página del modelo proporciona tiempos de inferencia aproximados de extremo a extremo en GB200 y RTX 5090. FLUX.2 [klein] 4B es la variante más rápida y aparece entre 0,3 y 1,2 segundos por imagen, según el hardware. FLUJO.2 [klein] 9B apunta a entre 0,5 y 2 segundos con mayor calidad. Los modelos base requieren varios segundos porque se ejecutan con programas de muestreo de 50 pasos, pero ofrecen más flexibilidad para canalizaciones personalizadas.

El FLUJO.2 [klein] La tarjeta modelo 4B indica que 4B cabe en aproximadamente 13 GB de VRAM y es adecuada para GPU como RTX 3090 y RTX 4070. El FLUX.2 [klein] La tarjeta 9B informa un requisito de aproximadamente 29 GB de VRAM y apunta a hardware como el RTX 4090. Esto significa que una única tarjeta de consumo de alta gama puede albergar las variantes destiladas con muestreo de resolución completa.

Para ampliar el alcance a más dispositivos, Black Forest Labs también lanza versiones FP8 y NVFP4 para todos los FLUX.2 [klein] variantes, desarrolladas junto con NVIDIA. La cuantificación de FP8 se describe como hasta 1,6 veces más rápida con hasta un 40 por ciento menos de uso de VRAM, y NVFP4 como hasta 2,7 veces más rápida con hasta un 55 por ciento menos de uso de VRAM en las GPU RTX, manteniendo las mismas capacidades principales.

Comparaciones con otros modelos de imagen

Black Forest Labs evalúa FLUX.2 [klein] a través de comparaciones de estilo Elo en texto e imagen, edición de referencia única y tareas de referencia múltiple. Las tablas de rendimiento muestran FLUX.2 [klein] en la frontera de Pareto de puntuación Elo versus latencia y puntuación Elo versus VRAM. El comentario afirma que FLUX.2 [klein] iguala o supera la calidad de los modelos de imagen basados en Qwen a una fracción de la latencia y VRAM, y supera a Z Image al tiempo que admite texto unificado a imagen y edición de referencias múltiples en una sola arquitectura.

https://bfl.ai/blog/flux2-klein-towards-interactive-visual-intelligence

Las variantes básicas intercambian algo de velocidad por una total personalización y ajuste fino, lo que se alinea con su papel como puntos de control básicos para nuevas investigaciones y procesos específicos de dominio.

Conclusiones clave

FLUJO.2 [klein] es una familia compacta de transformadores de flujo rectificado con variantes 4B y 9B que admite texto a imagen, edición de una sola imagen y generación de referencias múltiples en una arquitectura unificada. El FLUX.2 destilado [klein] Los modelos 4B y 9B utilizan 4 pasos de muestreo y están optimizados para inferencias en menos de un segundo en una única GPU moderna, mientras que los modelos Base no destilados utilizan programas más largos y están destinados a ajustes e investigación. Las variantes cuantificadas de FP8 y NVFP4, creadas con NVIDIA, brindan una aceleración de hasta 1,6 veces con una reducción de VRAM de aproximadamente el 40 por ciento para FP8 y una aceleración de hasta 2,7 veces con una reducción de VRAM de aproximadamente un 55 por ciento para NVFP4 en GPU RTX.

Consulte los detalles técnicos, los pesos del repositorio y del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

Black Forest Labs lanza FLUX.2 [klein]: Modelos de flujo compactos para inteligencia visual interactiva

ByEquipo de 7 minutos

Desde FLUX.2 [dev] a la inteligencia visual interactiva

Familia de modelos y capacidades.

Latencia, VRAM y variantes cuantificadas

Comparaciones con otros modelos de imagen

Conclusiones clave

By Equipo de 7 minutos

Related Post

TII lanza Falcon Perception: un transformador de fusión temprana de parámetros 0.6B para conexión a tierra de vocabulario abierto y segmentación a partir de indicaciones del lenguaje natural

Arcee AI lanza Trinity Large Thinking: un modelo de razonamiento abierto Apache 2.0 para agentes y uso de herramientas a largo plazo

Derrotando el ‘impuesto a los tokens’: cómo Google Gemma 4, NVIDIA y OpenClaw están revolucionando la IA agente local: de las computadoras de escritorio RTX a DGX Spark

You missed

Sanya, China, profundiza sus lazos turísticos con Malasia: se lanzan beneficios exclusivos para los turistas malayos, lo que marca el comienzo de una escapada a una isla tropical en cualquier momento

Detenido un marido por la muerte de su esposa en el norte de España

¿Karthik Subbaraj acaba de confirmar la secuela de Jigarthanda 3? El cineasta dice: “Quizás no…”

¿Qué tan preocupado deberías estar por un apocalipsis de la IA?