Black Forest Labs ha lanzado FLUX.2, su sistema de edición y generación de imágenes de segunda generación. FLUX.2 se dirige a flujos de trabajo creativos del mundo real, como activos de marketing, fotografías de productos, diseños e infografías complejas, con soporte de edición de hasta 4 megapíxeles y un fuerte control sobre el diseño, los logotipos y la tipografía.
Familia de productos FLUX.2 y FLUX.2 [dev]
La familia FLUX.2 abarca API alojadas y pesos abiertos:
FLUJO.2 [pro] es el nivel de API administrado. Tiene como objetivo una calidad de vanguardia en relación con los modelos cerrados, con un alto cumplimiento rápido y un bajo costo de inferencia, y está disponible en BFL Playground, BFL API y plataformas asociadas. FLUJO.2 [flex] expone parámetros como el número de pasos y la escala de orientación, para que los desarrolladores puedan compensar la latencia, la precisión de la representación del texto y los detalles visuales. FLUJO.2 [dev] es el punto de control de peso abierto, derivado del modelo básico FLUX.2. Se describe como el modelo de edición y generación de imágenes de peso abierto más poderoso, que combina texto a imagen y edición de múltiples imágenes en un solo punto de control, con 32 mil millones de parámetros. FLUJO.2 [klein] es una próxima variante de Apache 2.0 de código abierto, tamaño extraído del modelo base para configuraciones más pequeñas, con muchas de las mismas capacidades.
Todas las variantes admiten la edición de imágenes a partir de texto y múltiples referencias en un solo modelo, lo que elimina la necesidad de mantener puntos de control separados para la generación y edición.
Arquitectura, flujo latente y FLUX.2 VAE
FLUX.2 utiliza una arquitectura de coincidencia de flujo latente. El diseño central combina un modelo de lenguaje de visión Mistral-3 24B con un transformador de flujo rectificado que opera con representaciones de imágenes latentes. El modelo de lenguaje de visión proporciona una base semántica y conocimiento del mundo, mientras que la columna vertebral del transformador aprende la estructura espacial, los materiales y la composición.
El modelo está entrenado para asignar ruidos latentes a imágenes latentes bajo condicionamiento de texto, por lo que la misma arquitectura admite tanto la síntesis como la edición impulsadas por texto. Para la edición, las latentes se inicializan a partir de imágenes existentes y luego se actualizan bajo el mismo proceso de flujo preservando la estructura.
Un nuevo FLUX.2 VAE define el espacio latente. Está diseñado para equilibrar la capacidad de aprendizaje, la calidad de la reconstrucción y la compresión, y se publica por separado en Hugging Face bajo una licencia Apache 2.0. Este codificador automático es la columna vertebral de todos los modelos de flujo FLUX.2 y también se puede reutilizar en otros sistemas generativos.
Capacidades para flujos de trabajo de producción.
La integración de FLUX.2 Docs y Difusores resalta varias capacidades clave:
Compatibilidad con múltiples referencias: FLUX.2 puede combinar hasta 10 imágenes de referencia para mantener la identidad de los personajes, la apariencia del producto y el estilo en todas las producciones. Detalle fotorrealista a 4 MP: el modelo puede editar y generar imágenes de hasta 4 megapíxeles, con texturas, piel, telas, manos e iluminación mejoradas, adecuadas para tomas de productos y casos de uso similares a fotografías. Representación sólida de texto y diseño: puede representar tipografías complejas, infografías, memes y diseños de interfaz de usuario con texto pequeño y legible, lo cual es una debilidad común en muchos modelos más antiguos. Conocimiento del mundo y lógica espacial: el modelo está entrenado para una iluminación, perspectiva y composición de escena más fundamentadas, lo que reduce los artefactos y la apariencia sintética.
Conclusiones clave
FLUX.2 es un transformador de coincidencia de flujo latente de 32B que unifica texto con imagen, edición de imágenes y composición de múltiples referencias en un solo punto de control. FLUJO.2 [dev] es la variante de peso abierto, combinada con Apache 2.0 FLUX.2 VAE, mientras que los pesos del modelo principal utilizan la licencia no comercial FLUX.2-dev con filtrado de seguridad obligatorio. El sistema admite generación y edición de hasta 4 megapíxeles, representación sólida de texto y diseño y hasta 10 referencias visuales para caracteres, productos y estilos consistentes. La inferencia de precisión total requiere más de 80 GB de VRAM, pero los canales cuantificados de 4 bits y FP8 con descarga crean FLUX.2 [dev] utilizable en GPU de 18 GB a 24 GB e incluso tarjetas de 8 GB con suficiente RAM del sistema.
Notas editoriales
FLUX.2 es un paso importante para la generación visual de peso abierto, ya que combina un transformador de flujo rectificado 32B, un modelo de lenguaje de visión Mistral 3 24B y el FLUX.2 VAE en un único canal de alta fidelidad para texto a imagen y edición. Los perfiles claros de VRAM, las variantes cuantificadas y las sólidas integraciones con Difusores, ComfyUI y Cloudflare Workers lo hacen práctico para cargas de trabajo reales, no solo para pruebas comparativas. Esta versión acerca los modelos de imágenes abiertas a la infraestructura creativa de nivel de producción.
Consulte los detalles técnicos, el peso del modelo y el repositorio. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.