En los últimos años, ha habido una demanda creciente de modelos de aprendizaje automático capaces de manejar tareas visuales y lingüísticas de manera efectiva, sin depender de una infraestructura grande y engorrosa. El desafío radica en equilibrar el rendimiento con los requisitos de recursos, particularmente para dispositivos como computadoras portátiles, GPU de consumo o dispositivos móviles. Muchos modelos de lenguaje de visión (VLM) requieren una gran potencia computacional y memoria, lo que los hace poco prácticos para aplicaciones en el dispositivo. Los modelos como Qwen2-VL, aunque funcionan, requieren hardware costoso y una RAM de GPU sustancial, lo que limita su accesibilidad y practicidad para tareas en el dispositivo en tiempo real. Esto ha creado la necesidad de modelos livianos que puedan proporcionar un rendimiento sólido con recursos mínimos.
Hugging Face lanzó recientemente SmolVLM, un modelo de lenguaje de visión de parámetros 2B diseñado específicamente para la inferencia en el dispositivo. SmolVLM supera a otros modelos con un uso de RAM de GPU y un rendimiento de token comparables. La característica clave de SmolVLM es su capacidad para ejecutarse de manera efectiva en dispositivos más pequeños, incluidas computadoras portátiles o GPU de consumo, sin comprometer el rendimiento. Logra un equilibrio entre rendimiento y eficiencia que ha sido difícil de lograr con modelos de tamaño y capacidad similares. A diferencia de Qwen2-VL 2B, SmolVLM genera tokens entre 7,5 y 16 veces más rápido, debido a su arquitectura optimizada que favorece la inferencia ligera. Esta eficiencia se traduce en ventajas prácticas para los usuarios finales.
Descripción técnica
Desde un punto de vista técnico, SmolVLM tiene una arquitectura optimizada que permite una inferencia eficiente en el dispositivo. Se puede ajustar fácilmente mediante Google Colab, lo que lo hace accesible para la experimentación y el desarrollo incluso para aquellos con recursos limitados. Es lo suficientemente liviano como para funcionar sin problemas en una computadora portátil o procesar millones de documentos utilizando una GPU de consumo. Una de sus principales ventajas es su pequeña huella de memoria, lo que hace posible su implementación en dispositivos que antes no podían soportar modelos de tamaño similar. La eficiencia es evidente en su rendimiento de generación de tokens: SmolVLM produce tokens a una velocidad que oscila entre 7,5 y 16 veces más rápido en comparación con Qwen2-VL. Esta ganancia de rendimiento se debe principalmente a la arquitectura optimizada de SmolVLM que optimiza la codificación de imágenes y la velocidad de inferencia. Aunque tiene la misma cantidad de parámetros que Qwen2-VL, la eficiente codificación de imágenes de SmolVLM evita que se sobrecarguen los dispositivos, un problema que frecuentemente hace que Qwen2-VL bloquee sistemas como el MacBook Pro M3.

La importancia de SmolVLM radica en su capacidad de proporcionar inferencia de lenguaje visual de alta calidad sin la necesidad de hardware potente. Este es un paso importante para investigadores, desarrolladores y aficionados que deseen experimentar con tareas de visión y lenguaje sin invertir en costosas GPU. En las pruebas realizadas por el equipo, SmolVLM demostró su eficiencia cuando se evaluó con 50 cuadros de un video de YouTube, produciendo resultados que justificaron pruebas adicionales en CinePile, un punto de referencia que evalúa la capacidad de un modelo para comprender imágenes cinematográficas. Los resultados mostraron que SmolVLM obtuvo una puntuación del 27,14 %, colocándolo entre dos modelos que consumen más recursos: InternVL2 (2B) y Video LlaVa (7B). En particular, SmolVLM no fue entrenado con datos de video, pero funcionó de manera comparable a los modelos diseñados para tales tareas, lo que demuestra su solidez y versatilidad. Además, SmolVLM logra estas ganancias de eficiencia manteniendo la precisión y la calidad de salida, destacando que es posible crear modelos más pequeños sin sacrificar el rendimiento.
Conclusión
En conclusión, SmolVLM representa un avance significativo en el campo de los modelos de visión-lenguaje. Al permitir que se ejecuten tareas complejas de VLM en dispositivos cotidianos, Hugging Face ha abordado una brecha importante en el panorama actual de las herramientas de inteligencia artificial. SmolVLM compite bien con otros modelos de su clase y, a menudo, los supera en términos de velocidad, eficiencia y practicidad para su uso en el dispositivo. Con su diseño compacto y rendimiento de token eficiente, SmolVLM será una herramienta valiosa para quienes necesitan un procesamiento sólido de visión y lenguaje sin acceso a hardware de alta gama. Este desarrollo tiene el potencial de ampliar el uso de VLM, haciendo que los sistemas sofisticados de IA sean más accesibles. A medida que la IA se vuelve más personalizada y ubicua, modelos como SmolVLM allanan el camino para hacer que el potente aprendizaje automático sea accesible a un público más amplio.
Verificar los modelos en la cara abrazada, Detallesy Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.