LFM2-VL-3B de Liquid AI lleva un modelo de lenguaje de visión (VLM) de parámetros 3B a dispositivos de clase perimetral

Liquid AI lanzó LFM2-VL-3B, un modelo de lenguaje de visión de parámetros 3B para tareas de texto a texto de imagen. Amplía la familia LFM2-VL más allá de las variantes 450M y 1.6B. El modelo apunta a una mayor precisión al tiempo que preserva el perfil de velocidad de la arquitectura LFM2. Está disponible en LEAP y Hugging Face bajo la licencia abierta LFM v1.0.

Descripción general e interfaz del modelo

LFM2-VL-3B acepta entradas de texto e imágenes entrelazadas y produce salidas de texto. El modelo expone una plantilla similar a ChatML. El procesador inserta un centinela que se reemplaza con tokens de imágenes codificadas en tiempo de ejecución. La longitud del contexto de texto predeterminado es 32.768 tokens. Estos detalles ayudan a los desarrolladores a reproducir evaluaciones e integrar el modelo con tuberías multimodales existentes.

https://www.liquid.ai/blog/lfm2-vl-3b-a-new-ficient-vision-language-for-the-edge

Arquitectura

La pila combina una torre de lenguaje con una torre de visión consciente de la forma y un proyector. La torre del lenguaje es LFM2-2.6B, una columna vertebral híbrida de convolución más atención. La torre de visión es SigLIP2 NaFlex con parámetros de 400M, conserva las relaciones de aspecto nativas y evita la distorsión. El conector es un MLP de 2 capas con ordenación de píxeles, que comprime tokens de imágenes antes de fusionarlos con el espacio del lenguaje. Este diseño permite a los usuarios limitar los presupuestos de tokens de visión sin volver a entrenar el modelo.

El codificador procesa resoluciones nativas de hasta 512×512. Las entradas más grandes se dividen en parches de 512 × 512 que no se superponen. Una ruta en miniatura proporciona un contexto global durante el mosaico. El mapeo eficiente de tokens está documentado con ejemplos concretos: una imagen de 256 × 384 se asigna a 96 tokens, una imagen de 1000 × 3000 se asigna a 1020 tokens. La tarjeta modelo expone controles de usuario para tokens de imagen mínimos y máximos y el interruptor de mosaico. Estos controles ajustan la velocidad y la calidad en el momento de la inferencia.

Configuración de inferencia

La tarjeta del modelo Hugging Face proporciona los parámetros recomendados. La generación de texto utiliza una temperatura de 0,1, una p mínima de 0,15 y una penalización de repetición de 1,05. La configuración de visión utiliza tokens de imagen mínimos 64, tokens de imagen máximos 256 y división de imágenes habilitada. El procesador aplica la plantilla de chat y el centinela de imagen automáticamente. El ejemplo utiliza AutoModelForImageTextToText y AutoProcessor con precisión bfloat16.

¿Cómo se entrena?

Liquid AI describe un enfoque por etapas. El equipo realiza una capacitación intermedia conjunta que ajusta la proporción de texto e imagen a lo largo del tiempo. Luego, el modelo se somete a un ajuste fino supervisado centrado en la comprensión de la imagen. Las fuentes de datos son conjuntos de datos abiertos a gran escala además de datos internos de visión sintética para la cobertura de tareas.

Puntos de referencia

El equipo de investigación informa resultados competitivos entre los VLM abiertos y livianos. En MM-IFEval el modelo alcanza 51,83. En RealWorldQA alcanza 71,37. En MMBench dev es llega a 79,81. La puntuación del POPE es 89,01. La tabla indica que las puntuaciones de otros sistemas se calcularon con VLMEvalKit. La tabla excluye Qwen3-VL-2B porque ese sistema fue lanzado un día antes.

https://www.liquid.ai/blog/lfm2-vl-3b-a-new-ficient-vision-language-for-the-edge

La capacidad del lenguaje permanece cerca de la columna vertebral del LFM2-2.6B. El equipo de investigación cita el 30 por ciento en GPQA y el 63 por ciento en MMLU. Esto es importante cuando las tareas de percepción incluyen consultas de conocimiento. El equipo también afirma una comprensión visual multilingüe ampliada en inglés, japonés, francés, español, alemán, italiano, portugués, árabe, chino y coreano.

¿Por qué debería importarles a los usuarios de Edge?

La arquitectura mantiene la computación y la memoria dentro de los presupuestos de dispositivos pequeños. Los tokens de imagen son comprimibles y están restringidos por el usuario, por lo que el rendimiento es predecible. El codificador SigLIP2 400M NaFlex conserva las relaciones de aspecto, lo que ayuda a una percepción detallada. El proyector reduce los tokens en el conector, lo que mejora los tokens por segundo. El equipo de investigación también publicó una compilación de GGUF para tiempos de ejecución en dispositivos. Estas propiedades son útiles para clientes industriales, móviles y de robótica que necesitan procesamiento local y límites de datos estrictos.

Conclusiones clave

Pila multimodal compacta: el parámetro 3B LFM2-VL-3B combina una torre de lenguaje LFM2-2.6B con un codificador de visión SigLIP2 NaFlex de 400M y un proyector MLP de 2 capas para la fusión de tokens de imágenes. NaFlex conserva las relaciones de aspecto nativas. Manejo de resolución y presupuestos de tokens: las imágenes se ejecutan de forma nativa hasta 512 × 512, las entradas más grandes se agrupan en parches de 512 × 512 que no se superponen con una ruta de miniaturas para el contexto global. Las asignaciones de tokens documentadas incluyen 256 × 384 → 96 tokens y 1000 × 3000 → 1020 tokens. Interfaz de inferencia: indicaciones similares a ChatML con un centinela, contexto de texto predeterminado de 32,768 tokens, configuraciones de decodificación recomendadas y controles a nivel de procesador para la división de imágenes permiten una evaluación reproducible y una fácil integración en canalizaciones multimodales. Rendimiento medido: los resultados informados incluyen MM-IFEval 51,83, RealWorldQA 71,37, MMBench-dev-en 79,81 y POPE 89,01. Las señales de solo lenguaje procedentes de la columna vertebral son aproximadamente un 30 % de GPQA y un 63 % de MMLU, lo que resulta útil para cargas de trabajo mixtas de percepción y conocimiento.

LFM2-VL-3B es un paso práctico para cargas de trabajo multimodales de borde, la pila 3B combina LFM2-2.6B con un codificador SigLIP2 NaFlex de 400M y un proyector eficiente, lo que reduce el recuento de tokens de imagen para una latencia predecible. El procesamiento de resolución nativa con mosaicos de 512 por 512 y límites de tokens proporciona presupuestos deterministas. Las puntuaciones reportadas en MM-IFEval, RealWorldQA, MMBench y POPE son competitivas para este tamaño. Los pesos abiertos, una construcción GGUF y el acceso LEAP reducen la fricción de integración. En general, esta es una versión de VLM preparada para el borde con controles claros y puntos de referencia transparentes.

Consulte el Modelo en HF y Detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.