Los Vision Transformers (ViT) se han convertido en la piedra angular de la visión por computadora y ofrecen un gran rendimiento y adaptabilidad. Sin embargo, su gran tamaño y sus demandas computacionales crean desafíos, particularmente para la implementación en dispositivos con recursos limitados. Modelos como FLUX Vision Transformers, con miles de millones de parámetros, requieren almacenamiento y memoria sustanciales, lo que los hace poco prácticos para muchos casos de uso. Estas limitaciones restringen la aplicación en el mundo real de modelos generativos avanzados. Abordar estos desafíos requiere métodos innovadores para reducir la carga computacional sin comprometer el rendimiento.
Investigadores de ByteDance presentan FLUX de 1,58 bits
Los investigadores de ByteDance han presentado el modelo FLUX de 1,58 bits, una versión cuantificada del FLUX Vision Transformer. Este modelo reduce el 99,5% de sus parámetros (11,9 mil millones en total) a 1,58 bits, reduciendo significativamente los requisitos computacionales y de almacenamiento. El proceso es único porque no se basa en datos de imágenes, sino que utiliza un enfoque autosupervisado basado en el modelo FLUX.1-dev. Al incorporar un kernel personalizado optimizado para operaciones de 1,58 bits, los investigadores lograron una reducción de 7,7 veces en el almacenamiento y una reducción de 5,1 veces en el uso de memoria de inferencia, lo que hace más factible la implementación en entornos con recursos limitados.
Detalles técnicos y beneficios
El núcleo del FLUX de 1,58 bits reside en su técnica de cuantificación, que restringe los pesos del modelo a tres valores: +1, -1 o 0. Este enfoque comprime los parámetros desde una precisión de 16 bits hasta 1,58 bits. A diferencia de los métodos tradicionales, esta cuantificación sin datos se basa únicamente en un conjunto de datos de calibración de indicaciones de texto, lo que elimina la necesidad de datos de imágenes. Para manejar las complejidades de las operaciones de bits bajos, se desarrolló un kernel personalizado para optimizar los cálculos. Estos avances conducen a reducciones sustanciales en los requisitos de almacenamiento y memoria, al tiempo que mantienen la capacidad de generar imágenes de alta resolución de 1024 × 1024 píxeles.
Resultados y conocimientos
Amplias evaluaciones del modelo FLUX de 1,58 bits en puntos de referencia como GenEval y T2I CompBench demostraron su eficacia. El modelo entregó un rendimiento a la par de su contraparte de precisión total, con desviaciones menores observadas en tareas específicas. En términos de eficiencia, el modelo logró una reducción de 7,7 veces en el almacenamiento y una reducción de 5,1 veces en el uso de memoria en varias GPU. Las GPU fáciles de implementar, como la L20 y la A10, resaltaron aún más la practicidad del modelo con notables mejoras de latencia. Estos resultados indican que FLUX de 1,58 bits equilibra eficazmente la eficiencia y el rendimiento, lo que lo hace adecuado para una variedad de aplicaciones.

Conclusión
El desarrollo de FLUX de 1,58 bits aborda desafíos críticos en la implementación de Vision Transformers a gran escala. Su capacidad para reducir significativamente los requisitos de almacenamiento y memoria sin sacrificar el rendimiento representa un paso adelante en el diseño eficiente de modelos de IA. Si bien hay margen de mejora, como mejorar la cuantificación de activación y la representación con detalles finos, este trabajo sienta una base sólida para futuros avances. A medida que continúa la investigación, la perspectiva de implementar modelos generativos de alta calidad en dispositivos cotidianos se vuelve cada vez más realista, ampliando el acceso a potentes capacidades de IA.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.