Hugging Face lanza SmolVLM: un modelo de lenguaje-visión de parámetros 2B para inferencia en el dispositivo

En los últimos años, ha habido una demanda creciente de modelos de aprendizaje automático capaces de manejar tareas visuales y lingüísticas de manera efectiva, sin depender de una infraestructura grande y engorrosa. El desafío radica en equilibrar el rendimiento con los requisitos de recursos, particularmente para dispositivos como computadoras portátiles, GPU de consumo o dispositivos móviles. Muchos modelos de lenguaje de visión (VLM) requieren una gran potencia computacional y memoria, lo que los hace poco prácticos para aplicaciones en el dispositivo. Los modelos como Qwen2-VL, aunque funcionan, requieren hardware costoso y una RAM de GPU sustancial, lo que limita su accesibilidad y practicidad para tareas en el dispositivo en tiempo real. Esto ha creado la necesidad de modelos livianos que puedan proporcionar un rendimiento sólido con recursos mínimos.

Hugging Face lanzó recientemente SmolVLM, un modelo de lenguaje de visión de parámetros 2B diseñado específicamente para la inferencia en el dispositivo. SmolVLM supera a otros modelos con un uso de RAM de GPU y un rendimiento de token comparables. La característica clave de SmolVLM es su capacidad para ejecutarse de manera efectiva en dispositivos más pequeños, incluidas computadoras portátiles o GPU de consumo, sin comprometer el rendimiento. Logra un equilibrio entre rendimiento y eficiencia que ha sido difícil de lograr con modelos de tamaño y capacidad similares. A diferencia de Qwen2-VL 2B, SmolVLM genera tokens entre 7,5 y 16 veces más rápido, debido a su arquitectura optimizada que favorece la inferencia ligera. Esta eficiencia se traduce en ventajas prácticas para los usuarios finales.

Descripción técnica

Desde un punto de vista técnico, SmolVLM tiene una arquitectura optimizada que permite una inferencia eficiente en el dispositivo. Se puede ajustar fácilmente mediante Google Colab, lo que lo hace accesible para la experimentación y el desarrollo incluso para aquellos con recursos limitados. Es lo suficientemente liviano como para funcionar sin problemas en una computadora portátil o procesar millones de documentos utilizando una GPU de consumo. Una de sus principales ventajas es su pequeña huella de memoria, lo que hace posible su implementación en dispositivos que antes no podían soportar modelos de tamaño similar. La eficiencia es evidente en su rendimiento de generación de tokens: SmolVLM produce tokens a una velocidad que oscila entre 7,5 y 16 veces más rápido en comparación con Qwen2-VL. Esta ganancia de rendimiento se debe principalmente a la arquitectura optimizada de SmolVLM que optimiza la codificación de imágenes y la velocidad de inferencia. Aunque tiene la misma cantidad de parámetros que Qwen2-VL, la eficiente codificación de imágenes de SmolVLM evita que se sobrecarguen los dispositivos, un problema que frecuentemente hace que Qwen2-VL bloquee sistemas como el MacBook Pro M3.

La importancia de SmolVLM radica en su capacidad de proporcionar inferencia de lenguaje visual de alta calidad sin la necesidad de hardware potente. Este es un paso importante para investigadores, desarrolladores y aficionados que deseen experimentar con tareas de visión y lenguaje sin invertir en costosas GPU. En las pruebas realizadas por el equipo, SmolVLM demostró su eficiencia cuando se evaluó con 50 cuadros de un video de YouTube, produciendo resultados que justificaron pruebas adicionales en CinePile, un punto de referencia que evalúa la capacidad de un modelo para comprender imágenes cinematográficas. Los resultados mostraron que SmolVLM obtuvo una puntuación del 27,14 %, colocándolo entre dos modelos que consumen más recursos: InternVL2 (2B) y Video LlaVa (7B). En particular, SmolVLM no fue entrenado con datos de video, pero funcionó de manera comparable a los modelos diseñados para tales tareas, lo que demuestra su solidez y versatilidad. Además, SmolVLM logra estas ganancias de eficiencia manteniendo la precisión y la calidad de salida, destacando que es posible crear modelos más pequeños sin sacrificar el rendimiento.

Conclusión

En conclusión, SmolVLM representa un avance significativo en el campo de los modelos de visión-lenguaje. Al permitir que se ejecuten tareas complejas de VLM en dispositivos cotidianos, Hugging Face ha abordado una brecha importante en el panorama actual de las herramientas de inteligencia artificial. SmolVLM compite bien con otros modelos de su clase y, a menudo, los supera en términos de velocidad, eficiencia y practicidad para su uso en el dispositivo. Con su diseño compacto y rendimiento de token eficiente, SmolVLM será una herramienta valiosa para quienes necesitan un procesamiento sólido de visión y lenguaje sin acceso a hardware de alta gama. Este desarrollo tiene el potencial de ampliar el uso de VLM, haciendo que los sistemas sofisticados de IA sean más accesibles. A medida que la IA se vuelve más personalizada y ubicua, modelos como SmolVLM allanan el camino para hacer que el potente aprendizaje automático sea accesible a un público más amplio.

Verificar los modelos en la cara abrazada, Detallesy Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

Hugging Face lanza SmolVLM: un modelo de lenguaje-visión de parámetros 2B para inferencia en el dispositivo

ByEquipo de 7 minutos

Descripción técnica

Conclusión

By Equipo de 7 minutos

Related Post

Diseñe bucles, no indicaciones | Hacia la ciencia de datos

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8: Comparación de puntos de referencia de codificación agente, precios de API y compensaciones entre costo y rendimiento

La API de Google Health tiene una CLI: ghealth es una herramienta de código abierto para sus datos de Fitbit Air

You missed

Diseñe bucles, no indicaciones | Hacia la ciencia de datos

El cohete SpaceX Falcon 9 lanza 24 satélites Starlink desde California

Ex atleta olímpico acusado de delito grave por presunto vandalismo en Reflecting Pool

El Congreso español aprueba conceder la ciudadanía a los saharauis