Liquid AI se libera LFM2-VL: modelos de lenguaje de visión de peso abierto súper rápidos diseñados para implementación de baja latencia y dispositivos

Liquid Ai ha liberado oficialmente LFM2-VLuna nueva familia de modelos de fundación en idioma de visión optimizados para implementación de baja latencia y en disposición. Con dos variantes altamente eficientes:LFM2-VL-450M y LFM2-VL-1.6B—Este lanzamiento marca un salto significativo para llevar la IA multimodal a teléfonos inteligentes, computadoras portátiles, wearables y sistemas integrados sin comprometer la velocidad o la precisión.

Velocidad y eficiencia sin precedentes

Los modelos LFM2-VL están diseñados para entregar hasta 2 × inferencia de GPU más rápida En comparación con los modelos de lenguaje de visión existentes, al tiempo que mantiene el rendimiento de referencia competitivo en tareas como la descripción de la imagen, la respuesta de las preguntas visuales y el razonamiento multimodal. La variante de 450 m-parámetro está adaptada para entornos altamente limitados por los recursos, mientras que la versión de 1.6b-parámetro ofrece una mayor capacidad y sigue siendo lo suficientemente liviano para el uso móvil de una sola GPU o de alta gama.

https://www.liquid.ai/blog/lfm2-vl-eficiente-vision-language-models

Innovaciones técnicas

  • Arquitectura modular: LFM2-VL combina una columna vertebral del modelo de lenguaje (LFM2-1.2B o LFM2-350M), un codificador Siglip2 Naflex Vision (400m u 86m de parámetros), y un proyector multimodal con una técnica de “desanimación de pixel” que reduce dinámicamente el tocador de imágenes cuenta para el procesamiento de blaster.
  • Manejo de resolución nativa: Las imágenes se procesan en su Resolución nativa de hasta 512 × 512 píxeles sin distorsión del aumento de la escala. Las imágenes más grandes se dividen en parches 512 × 512 no superpuestos, preservando los detalles y la relación de aspecto. El modelo 1.6b también codifica una miniatura de escala de la imagen completa para la comprensión del contexto global.
  • Inferencia flexible: Los usuarios pueden Sintonice la compensación de calidad de velocidad en el momento de la inferencia Al ajustar los tokens de imagen máximos y el recuento de parches, permitiendo la adaptación en tiempo real a las capacidades del dispositivo y las necesidades de la aplicación.
  • Capacitación: Los modelos se entrenaron primero en la columna vertebral LFM2, luego se capacitan en forma conjunta para fusionar las capacidades de visión y lenguaje utilizando un ajuste progresivo de las relaciones de datos de texto a imagen, y finalmente ajustados para la comprensión de la imagen en aproximadamente 100 mil millones de tokens multimodales.

Rendimiento de referencia

LFM2-VL ofrece Resultados competitivos en puntos de referencia públicos como RealWorldqa, MM-Ifeval y Ocrbench, rivalizando modelos más grandes como Internvl3 y SmOlvlm2, pero con un huella de memoria más pequeña y un procesamiento mucho más rápido, lo que lo hace ideal para aplicaciones de borde y móviles.

Ambos tamaños de modelo son peso abierto y descargable en la cara abrazada debajo de un Licencia basada en Apache 2.0permitiendo el uso gratuito para la investigación y el uso comercial por parte de las empresas. Las empresas más grandes deben comunicarse con Liquid AI para una licencia comercial. Los modelos se integran a la perfección con los transformadores de la cara abrazados y la cuantificación de soporte para obtener más ganancias de eficiencia en el hardware de borde.

https://www.liquid.ai/blog/lfm2-vl-eficiente-vision-language-models

Casos de uso e integración

LFM2-VL está diseñado para desarrolladores y empresas que buscan implementar AI multimodal rápida, precisa y eficiente Directamente en dispositivos: reducir la dependencia de la nube y habilitar nuevas aplicaciones en robótica, IoT, cámaras inteligentes, asistentes móviles y más. Las aplicaciones de ejemplo incluyen subtítulos de imágenes en tiempo real, búsqueda visual y chatbots multimodales interactivos.

Empezando

  • Descargar: Ambos modelos están disponibles ahora en la colección Liquid AI Hugging Face.
  • Correr: Se proporciona un código de inferencia de ejemplo para plataformas como Llama.cpp, que admite varios niveles de cuantización para un rendimiento óptimo en diferentes hardware.
  • Personalizar: La arquitectura admite la integración con la plataforma Leap de Liquid AI para una mayor personalización e implementación de borde multiplataforma.

En resumenLiquid AI’s LFM2-VL establece un nuevo estándar para modelos eficientes en el lenguaje de visión de peso abierto en el borde. Con el soporte de resolución nativa, las compensaciones de calidad de velocidad sintonizable y un enfoque en la implementación del mundo real, permite a los desarrolladores construir la próxima generación de aplicaciones con IA, en cualquier lugar, en cualquier dispositivo.


Mira el Detalle técnico y Modelos en la cara abrazada. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.