Liquid AI ha presentado LFM2.5, una nueva generación de modelos básicos pequeños construidos sobre la arquitectura LFM2 y centrados en implementaciones de dispositivos y de borde. La familia de modelos incluye LFM2.5-1.2B-Base y LFM2.5-1.2B-Instruct y se extiende a variantes de japonés, lenguaje visual y lenguaje de audio. Se lanza como pesas abiertas en Hugging Face y se expone a través de la plataforma LEAP.
Receta de arquitectura y formación
LFM2.5 mantiene la arquitectura híbrida LFM2 que fue diseñada para una inferencia rápida y eficiente en memoria en CPU y NPU y escala los datos y el proceso posterior al entrenamiento. El entrenamiento previo para la red troncal de 1.200 millones de parámetros se amplía de 10T a 28T de tokens. Luego, la variante de instrucción recibe un ajuste fino supervisado, una alineación de preferencias y un aprendizaje de refuerzo de múltiples etapas a gran escala centrado en el seguimiento de instrucciones, el uso de herramientas, las matemáticas y el razonamiento del conocimiento.
Rendimiento del modelo de texto a una escala de mil millones
LFM2.5-1.2B-Instruct es el principal modelo de texto de propósito general. El equipo de Liquid AI informa resultados comparativos en GPQA, MMLU Pro, IFEval, IFBench y varios conjuntos de codificación y llamada de funciones. El modelo alcanza 38,89 en GPQA y 44,35 en MMLU Pro. Los modelos abiertos de clase 1B de la competencia, como Llama-3.2-1B Instruct y Gemma-3-1B IT, obtienen puntuaciones significativamente más bajas en estas métricas.
En IFEval e IFBench, que apuntan al seguimiento de instrucciones de varios pasos y la calidad de las llamadas de funciones, LFM2.5-1.2B-Instruct informa 86.23 y 47.33. Estos valores están por delante de las otras líneas base de clase 1B en la tabla de Liquid AI anterior.
Variante japonesa optimizada
LFM2.5-1.2B-JP es un modelo de texto japonés optimizado derivado de la misma columna vertebral. Está dirigido a tareas como JMMLU, M-IFEval en japonés y GSM8K en japonés. Este punto de control mejora el modelo de instrucción general en tareas japonesas y compite o supera a otros pequeños modelos multilingües como Qwen3-1.7B, Llama 3.2-1B Instruct y Gemma 3-1B IT en estos puntos de referencia localizados.
Modelo de lenguaje de visión para cargas de trabajo perimetrales multimodales
LFM2.5-VL-1.6B es el modelo de lenguaje de visión actualizado de la serie. Utiliza LFM2.5-1.2B-Base como columna vertebral del lenguaje y agrega una torre de visión para la comprensión de imágenes. El modelo está ajustado a una variedad de puntos de referencia de razonamiento visual y OCR, incluidos MMStar, MM IFEval, BLINK, InfoVQA, OCRBench v2, RealWorldQA, MMMU y MMBench multilingüe. LFM2.5-VL-1.6B mejora con respecto al LFM2-VL-1.6B anterior en la mayoría de las métricas y está diseñado para tareas del mundo real, como la comprensión de documentos, la lectura de la interfaz de usuario y el razonamiento de múltiples imágenes bajo restricciones extremas.
Modelo de lenguaje de audio con generación de habla nativa.
LFM2.5-Audio-1.5B es un modelo de lenguaje de audio nativo que admite entradas y salidas de texto y audio. Se presenta como un modelo de Audio a Audio y utiliza un detokenizador de audio que se describe como ocho veces más rápido que el detokenizador anterior basado en Mimi con la misma precisión en hardware limitado.
El modelo admite dos modos de generación principales. La generación entrelazada está diseñada para agentes conversacionales de voz a voz en tiempo real donde domina la latencia. La generación secuencial está dirigida a tareas como el reconocimiento automático de voz y texto a voz y permite cambiar la modalidad generada sin reiniciar el modelo. La pila de audio se entrena con entrenamiento consciente de la cuantificación con baja precisión, lo que mantiene métricas como STOI y UTMOS cerca de la línea base de precisión total al tiempo que permite la implementación en dispositivos con computación limitada.
Conclusiones clave
LFM2.5 es una familia de modelos híbridos a escala 1.2B construida sobre la arquitectura optimizada del dispositivo LFM2, con variantes Base, Instruct, Japonés, Vision Language y Audio Language, todas lanzadas como pesos abiertos en Hugging Face y LEAP. El entrenamiento previo para LFM2.5 se extiende de 10T a 28T tokens y el modelo Instruct agrega ajuste fino supervisado, alineación de preferencias y aprendizaje de refuerzo en múltiples etapas a gran escala, lo que impulsa el seguimiento de instrucciones y la calidad del uso de herramientas más allá de otras líneas base de clase 1B. LFM2.5-1.2B-Instruct ofrece un sólido rendimiento de referencia de texto en la escala 1B, alcanzando 38,89 en GPQA y 44,35 en MMLU Pro y modelos líderes como Llama 3.2 1B Instruct, Gemma 3 1B IT y Granite 4.0 1B en IFEval e IFBench. La familia incluye variantes regionales y multimodales especializadas, con LFM2.5-1.2B-JP logrando resultados de vanguardia para los puntos de referencia japoneses a su escala y LFM2.5-VL-1.6B y LFM2.5-Audio-1.5B que cubren cargas de trabajo de lenguaje de visión y lenguaje de audio nativo para agentes de borde.
Consulta los detalles técnicos y los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Consulte nuestra última versión de ai2025.dev, una plataforma de análisis centrada en 2025 que convierte los lanzamientos de modelos, los puntos de referencia y la actividad del ecosistema en un conjunto de datos estructurado que puede filtrar, comparar y exportar.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.