Liquid AI acaba de lanzar LFM2.5-VL-450M, una versión actualizada de su modelo anterior de lenguaje de visión LFM2-VL-450M. La nueva versión presenta predicción de cuadros delimitadores, seguimiento de instrucciones mejorado, comprensión multilingüe ampliada y compatibilidad con llamadas de funciones, todo dentro de un espacio de 450 millones de parámetros diseñado para ejecutarse directamente en hardware de vanguardia que va desde módulos de IA integrados como NVIDIA Jetson Orin, hasta mini-PC APU como AMD Ryzen AI Max+ 395 y SoC de teléfonos emblemáticos como el Snapdragon 8 Elite dentro del Samsung S25 Ultra.
¿Qué es un modelo visión-lenguaje y por qué es importante el tamaño del modelo?
Antes de profundizar, conviene comprender qué es un modelo visión-lenguaje (VLM). Un VLM es un modelo que puede procesar imágenes y texto juntos; puede enviarle una foto y hacerle preguntas en lenguaje natural, y responderá. La mayoría de los VLM grandes requieren una gran cantidad de memoria GPU e infraestructura de nube para funcionar. Esto es un problema para escenarios de implementación del mundo real, como robots de almacén, gafas inteligentes o cámaras en estanterías de comercios minoristas, donde la computación es limitada y la latencia debe ser baja.
LFM2.5-VL-450M es la respuesta de Liquid AI a esta limitación: un modelo lo suficientemente pequeño como para caber en hardware de vanguardia y al mismo tiempo admite un conjunto significativo de capacidades de visión y lenguaje.
Arquitectura y Formación
LFM2.5-VL-450M utiliza LFM2.5-350M como modelo de lenguaje principal y SigLIP2 NaFlex 86M de forma optimizada como codificador de visión. La ventana de contexto tiene 32.768 tokens con un tamaño de vocabulario de 65.536.
Para el manejo de imágenes, el modelo admite el procesamiento de resolución nativa de hasta 512 × 512 píxeles sin ampliación, conserva relaciones de aspecto no estándar sin distorsión y utiliza una estrategia de mosaico que divide imágenes grandes en parches de 512 × 512 que no se superponen al tiempo que incluye codificación de miniaturas para el contexto global. La codificación de miniaturas es importante: sin ella, el mosaico le daría al modelo solo parches locales sin sentido de la escena general. En el momento de la inferencia, los usuarios pueden ajustar los tokens de imagen máximos y el recuento de mosaicos para lograr un equilibrio entre velocidad y calidad sin necesidad de volver a capacitarse, lo cual es útil cuando se implementa en hardware con diferentes presupuestos de computación.
Los parámetros de generación recomendados de Liquid AI son temperatura=0,1, min_p=0,15 y repetition_penalty=1,05 para texto, y min_image_tokens=32, max_image_tokens=256 y do_image_splitting=True para entradas de visión.
En el lado de la capacitación, Liquid AI escaló la capacitación previa de 10T a 28T tokens en comparación con LFM2-VL-450M, seguida de la capacitación posterior utilizando optimización de preferencias y aprendizaje de refuerzo para mejorar la conexión a tierra, el seguimiento de instrucciones y la confiabilidad general en las tareas de visión y lenguaje.
Nuevas capacidades sobre LFM2-VL-450M
La adición más importante es la predicción del cuadro delimitador. El LFM2.5-VL-450M obtuvo una puntuación de 81,28 en RefCOCO-M, frente a cero en el modelo anterior. RefCOCO-M es un punto de referencia visual que mide la precisión con la que un modelo puede localizar un objeto en una imagen dada una descripción en lenguaje natural. En la práctica, el modelo genera JSON estructurado con coordenadas normalizadas que identifican dónde están los objetos en una escena, no solo describiendo lo que hay allí, sino también localizándolo. Esto es significativamente diferente de los subtítulos de imágenes puros y hace que el modelo se pueda utilizar directamente en canalizaciones que necesitan salidas espaciales.
El soporte multilingüe también mejoró sustancialmente. Las puntuaciones del MMMB mejoraron de 54,29 a 68,09 y abarcan árabe, chino, francés, alemán, japonés, coreano, portugués y español. Esto es relevante para implementaciones globales donde las indicaciones en el idioma local deben entenderse junto con entradas visuales, sin necesidad de canales de localización separados.
El seguimiento de instrucciones también mejoró. Las puntuaciones de MM-IFEval pasaron de 32,93 a 45,00, lo que significa que el modelo se adhiere de manera más confiable a las restricciones explícitas dadas en un mensaje, por ejemplo, responder en un formato particular o restringir la salida a campos específicos.
También se agregó soporte de llamadas a funciones para entrada de solo texto, medido por BFCLv4 en 21.08, una capacidad que el modelo anterior no incluía. La llamada a funciones permite que el modelo se use en canalizaciones agentes donde necesita invocar herramientas externas, por ejemplo, llamar a una API meteorológica o desencadenar una acción en un sistema posterior.
Rendimiento de referencia
En todos los puntos de referencia de visión evaluados con VLMEvalKit, LFM2.5-VL-450M supera a LFM2-VL-450M y SmolVLM2-500M en la mayoría de las tareas. Las puntuaciones notables incluyen 86,93 en POPE, 684 en OCRBench, 60,91 en MMBench (dev en) y 58,43 en RealWorldQA.
Dos ganancias de referencia se destacan más allá de las cifras principales. MMVet, que evalúa una comprensión visual más abierta, mejoró de 33,85 a 41,10, una ganancia relativa sustancial. CountBench, que evalúa la capacidad del modelo para contar objetos en una escena, mejoró de 47,64 a 73,31, una de las mayores mejoras relativas de la tabla. InfoVQA se mantuvo prácticamente estable en 43,02 frente a 44,56 en el modelo anterior.
En los puntos de referencia solo de idioma, IFEval mejoró de 51,75 a 61,16 y Multi-IF de 26,21 a 34,63. El modelo no tiene un rendimiento superior en todas las tareas (MMMU (val) cayó ligeramente de 34,44 a 32,67) y Liquid AI señala que el modelo no es adecuado para tareas intensivas en conocimiento o OCR detallado.
Rendimiento de inferencia de borde
LFM2.5-VL-450M con cuantificación Q4_0 se ejecuta en toda la gama de hardware de destino, desde módulos de IA integrados como Jetson Orin hasta APU de mini PC como Ryzen AI Max+ 395 y SoC de teléfonos emblemáticos como Snapdragon 8 Elite.
Los números de latencia cuentan una historia clara. En Jetson Orin, el modelo procesa una imagen de 256×256 en 233 ms y una imagen de 512×512 en 242 ms, manteniéndose muy por debajo de 250 ms en ambas resoluciones. Esto lo hace lo suficientemente rápido como para procesar cada cuadro en una transmisión de video de 4 FPS con comprensión total de visión y lenguaje, no solo detección. En Samsung S25 Ultra, la latencia es de 950 ms para 256×256 y 2,4 segundos para 512×512. En AMD Ryzen AI Max+ 395, es de 637 ms para 256×256 y 944 ms para 512×512, menos de un segundo para la resolución más pequeña en ambos dispositivos de consumo, lo que mantiene la capacidad de respuesta de las aplicaciones interactivas.
Casos de uso del mundo real
LFM2.5-VL-450M es especialmente adecuado para implementaciones del mundo real donde la baja latencia, las salidas estructuradas compactas y el razonamiento semántico eficiente son lo más importante, incluidas configuraciones donde la operación fuera de línea o el procesamiento en el dispositivo son importantes para la privacidad.
En la automatización industrial, los entornos con restricciones informáticas, como vehículos de pasajeros, maquinaria agrícola y almacenes, a menudo limitan los modelos de percepción a resultados de cuadros delimitadores. LFM2.5-VL-450M va más allá y proporciona una comprensión sólida de la escena en una sola pasada, lo que permite obtener resultados más completos para entornos como pasillos de almacén, incluidas las acciones de los trabajadores, el movimiento de montacargas y el flujo de inventario, y al mismo tiempo se adapta al hardware de borde existente, como un Jetson Orin.
En el caso de los dispositivos portátiles y el monitoreo siempre activo, dispositivos como gafas inteligentes, asistentes corporales, cámaras para tablero y monitores industriales o de seguridad no pueden permitirse grandes pilas de percepción o transmisión constante en la nube. Un VLM eficiente puede producir salidas semánticas compactas localmente, convirtiendo el vídeo sin formato en una comprensión estructurada útil, al tiempo que mantiene bajas las demandas informáticas y preserva la privacidad.
En el comercio minorista y el comercio electrónico, tareas como la ingesta de catálogos, la búsqueda visual, la comparación de productos y el cumplimiento de las normas en las estanterías requieren más que la detección de objetos, pero una comprensión visual más rica suele ser demasiado costosa para implementarla a escala. LFM2.5-VL-450M hace que el razonamiento visual estructurado sea práctico para estas cargas de trabajo.
Conclusiones clave
LFM2.5-VL-450M agrega predicción de cuadro delimitador por primera vez, con una puntuación de 81,28 en RefCOCO-M frente a cero en el modelo anterior, lo que permite al modelo generar coordenadas espaciales estructuradas para los objetos detectados, no solo describir lo que ve. La capacitación previa se amplió de 10T a 28T tokens, combinada con la capacitación posterior mediante optimización de preferencias y aprendizaje de refuerzo, lo que generó ganancias de referencia consistentes en tareas de visión y lenguaje en comparación con LFM2-VL-450M. El modelo se ejecuta en hardware de vanguardia con una latencia inferior a 250 ms y procesa una imagen de 512 × 512 en 242 ms en NVIDIA Jetson Orin con cuantificación Q4_0, lo suficientemente rápido para una comprensión completa de la visión y el lenguaje en cada cuadro de una transmisión de video de 4 FPS sin descarga en la nube. La comprensión visual multilingüe mejoró significativamente, con puntuaciones MMMB que aumentaron de 54,29 a 68,09 en árabe, chino, francés, alemán, japonés, coreano, portugués y español, lo que hizo que el modelo fuera viable para implementaciones globales sin modelos de localización separados.
Consulta los detalles técnicos y el peso del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros