Liquid AI lanza LFM2.5-8B-A1B: un modelo MoE en el dispositivo con 8,3 mil millones de parámetros activos y 1,5 mil millones en total

Liquid AI acaba de enviar LFM2.5-8B-A1B. Es un modelo de mezcla de expertos (MoE) en el dispositivo creado para la llamada de herramientas. El modelo tiene un total de 8,3 mil millones de parámetros pero activa solo 1,5 mil millones por token. Esa escasez es lo que le permite ejecutarse en hardware de consumo.

El lanzamiento sigue al LFM2-8B-A1B, que el equipo de Liquid AI publicó anteriormente. LFM2.5 es una nueva familia de modelos híbridos para implementación en dispositivos. Esta versión agrega una ventana de contexto de 128K, razonamiento y capacitación ampliada.

¿Qué es LFM2.5-8B-A1B?

El modelo utiliza un diseño MoE escaso. Activa 1,5 mil millones de 8,3 mil millones de parámetros totales por pase hacia adelante. Eso hace que cada token generado sea barato de calcular.

La arquitectura tiene 24 capas. Dieciocho son bloques de convolución LIV de doble puerta; seis son capas de GQA. Combina MoE, GQA y bloques de convolución cortos cerrados. La longitud del contexto es 131.072 tokens. El modelo cubre nueve idiomas, incluidos árabe, chino y japonés.

El equipo de Liquid AI recomienda una temperatura de 0,2, top_k de 80 y repetition_penalty de 1,05.

A diferencia de su predecesor, el LFM2.5-8B-A1B es un modelo de sólo razonamiento. Produce una cadena explícita de pensamiento antes de su respuesta final. El equipo de Liquid AI eligió esto porque los modelos MoE se ejecutan en entornos vinculados a la computación. Un recuento de parámetros activos más pequeño hace que cada token de razonamiento sea económico.

Qué cambió desde LFM2-8B-A1B

Liquid amplió la ventana contextual de 32.768 a 128.000 tokens. El entrenamiento previo se amplió de 12T a 38T tokens. El vocabulario se duplicó de 65.536 a 128.000 fichas.

El vocabulario más amplio tokeniza escrituras no latinas de manera más eficiente. El equipo de Liquid AI informa los mayores aumentos de compresión en hindi, tailandés, vietnamita, indonesio y árabe. El resto de la arquitectura sigue siendo la misma que la del LFM2-8B-A1B.

Cómo lo entrenó la IA líquida

El equipo de Liquid AI amplió el tokenizador en su lugar en lugar de volver a entrenarlo desde cero. Continuó el entrenamiento de fusión de BPE a partir de las fusiones originales en un corpus multilingüe. Las nuevas filas incrustadas se inicializan como la media de sus descomposiciones de subtokens. Luego, una breve adaptación en dos etapas recupera la calidad.

La extensión del contexto se produjo en dos fases. Una fase de entrenamiento medio de tokens 2T alcanzó los 32K, centrada en razonamiento, matemáticas y uso de herramientas. El aumento de la base RoPE θ, más una etapa de token de 400B, alcanzó los 128K.

Dos etapas de aprendizaje por refuerzo apuntan a modos de falla conocidos. Una etapa de optimización de preferencias reduce los “bucles fatales” en largas líneas de razonamiento. Redistribuye la masa de probabilidad hacia alternativas plausibles. Una recompensa de configuración de RL separada desalienta las palabras de reinicio que inducen bucles como “Espera…”. Otra etapa de RL utiliza una recompensa basada en avg@k para reducir las alucinaciones. El objetivo es la abstención en consultas que van más allá de los conocimientos fiables.

https://www.liquid.ai/blog/lfm2-5-8b-a1b

El caso de referencia

LFM2.5-8B-A1B mejora con respecto a su predecesor en todos los ámbitos. La tasa de no alucinaciones de AA-Omniscience saltó de 7,46 a 63,47. El IFEval subió de 79,44 a 91,84. MATH500 subió de 74,80 a 88,76. Tau² Telecom subió de 13,60 a 88,07.

El equipo de Liquid AI comparó el modelo con alternativas densas y MoE. Siguiendo las instrucciones, coincide con Gemma-4-26B-A4B-IT en IFEval. Lo hace a una fracción del recuento de parámetros activos. En Tau² Telecom, obtiene una puntuación de 88,07, por delante de modelos mucho más grandes.

La recompensa avg@k genera una tasa de alucinaciones mucho más baja. La precisión sigue siendo razonable para el tamaño del modelo. En los puntos de referencia agentes, sigue siendo competitivo con modelos más grandes.

Punto de referenciaLFM2-8B-A1BLFM2.5-8B-A1BΔAA-Omniscience Tasa de no alucinaciones7.4663.47+56.01IFEval79.4491.84+12.40MATH50074.8088.76+13.96Tau² Telecom13.6088.07+74.47

El modelo se entrega con soporte desde el primer día en todo el ecosistema de inferencia. Los marcos incluyen llama.cpp, MLX, vLLM y SGLang. También se admiten ONNX y la plataforma LEAP edge de Liquid.

En la CPU, decodifica 253 tokens/s en un M5 Max. Alcanza 146 tokens/s en un Ryzen AI Max+ 395. Se mantiene por debajo de los 6 GB de memoria en todo momento. En un teléfono, contiene alrededor de 30 tokens/s.

En una sola NVIDIA H100 SXM5, el rendimiento de salida alcanza los 18,5 000 tokens por segundo. Eso es más de 1.600 millones de tokens por día con alta concurrencia.

Para el uso de herramientas, LFM2.5 escribe llamadas a funciones Pythonic de forma predeterminada. Aparecen entre los tokens especiales <|tool_call_start|> y <|tool_call_end|>. Puede anular esto a JSON en el indicador del sistema.

Fortalezas y qué observar

Fortalezas:

Activa solo 1,5 mil millones de parámetros, lo que mantiene la inferencia económica en el hardware de vanguardia. Seguimiento de instrucciones competitivo y puntajes agentes para su clase de tamaño. Ventana de contexto de 128 000 y cobertura de nueve idiomas. Peso abierto bajo la licencia LFM1.0, con puntos de control base y post-entrenado.

Qué mirar:

Capacidad de conocimiento limitada debido al pequeño recuento de parámetros activos No es adecuado para programación pesada o control de calidad intensivo en conocimiento sin recuperación La salida de solo razonamiento agrega tokens de cadena de pensamiento en cada turno Solo texto; esta variante no tiene entrada de visión ni de audio

Explicador visual de Marktechpost

Guía de modelos en el dispositivo

LFM2.5-8B-A1B

El modelo de mezcla de expertos en el dispositivo de Liquid AI, creado para llamar a herramientas y seguir instrucciones complejas en hardware de consumo.

8.300 millones de parámetros totales
1,5 mil millones activos
Contexto de 128K
solo razonamiento
peso abierto

¿Qué es?

Un MoE escaso que activa 1,5 mil millones de 8,3 mil millones de parámetros por token

24 capas: 18 bloques de convolución LIV de doble puerta más 6 capas GQA. Combina MoE, GQA y bloques de convolución cortos cerrados. Longitud del contexto de 131.072 fichas; cubre 9 idiomas. Sólo razonamiento: produce una cadena de pensamiento explícita antes de responder. Parámetros recomendados: temperatura 0,2, top_k 80, penalización_repetición 1.05.

Qué cambió desde LFM2-8B-A1B

Mayor contexto, más formación, un vocabulario más amplio

ventana contextual

32,768 → 128,000

Procesa documentos más largos y motivos por más tiempo.

Fichas de preentrenamiento

12T → 38T

Preentrenamiento ampliado más RL a gran escala.

Tamaño del vocabulario

65.536 → 128.000

Tokeniza escrituras no latinas de manera más eficiente.

Mejores ganancias de compresión

5 idiomas

Hindi, tailandés, vietnamita, indonesio, árabe.

Cómo fue entrenado

Extensión de Tokenizer, crecimiento del contexto por etapas, RL dirigido

Tokenizer: ampliado en su lugar, con capacitación continua sobre fusión de BPE en un corpus multilingüe. Contexto: una fase de entrenamiento medio de 2T de tokens a 32K, luego RoPE base θ más 400B de tokens a 128K. Bucles fatales: la optimización de preferencias redistribuye la masa de probabilidad hacia alternativas plausibles. Una recompensa de configuración de RL separada desalienta las palabras de reinicio que inducen bucles como “Espera…”. Alucinaciones: una recompensa RL basada en avg@k fomenta la abstención más allá del conocimiento confiable.

Puntos de referencia vs. LFM2-8B-A1B

Mayores avances en la no alucinación y el uso de herramientas

BenchmarkLFM2LFM2.5Δ AA-Omniscience Tasa de no alucinaciones7.4663.47+56.01 IFEval79.4491.84+12.40 MATH50074.8088.76+13.96 Tau² Telecom13.6088.07+74.47

En IFEval coincide con Gemma-4-26B-A4B-IT en una fracción del recuento de parámetros activos.

Rendimiento de inferencia

Rápido en CPU y GPU, con soporte de framework desde el primer día

decodificación de CPU

253 tok/s

M5 Max, menos de 6 GB de memoria. 146 tok/s en un Ryzen AI Max+ 395.

en un teléfono

~30 toneladas/s

Se ejecuta de forma local y privada en el dispositivo.

Rendimiento de la GPU

18.500 tok/s

Alta concurrencia, >1,600 millones de tokens/día en un único H100.

Soporte desde el primer día

llama.cpp, MLX, vLLM, SGLang.

También ONNX y LEAP de Liquid.

Uso de herramientas y agentes

Llamadas a funciones pitónicas, listas para agentes en el dispositivo

De forma predeterminada, escribe llamadas a funciones Pythonic entre <|tool_call_start|> y <|tool_call_end|> fichas. Puede anular esto en llamadas a funciones JSON en el indicador del sistema. Se ejecuta la demostración de LocalCowork 67 herramientas al otro lado de 13 servidores MCP. Se ejecuta en una computadora portátil: sin nube, sin claves API, ni datos que salen de la máquina.

ejecutarlo

Sirva en dos líneas o cargue directamente

# Servir con vLLM (API compatible con OpenAI)
pip instalar vllm vllm servir “LiquidAI/LFM2.5-8B-A1B”

# O cargar directamente con Transformers
de transformadores importe AutoModelForCausalLM, AutoTokenizer model_id = “LiquidAI/LFM2.5-8B-A1B” model = AutoModelForCausalLM.from_pretrained( model_id, device_map=”auto”, dtype=”bfloat16″) tokenizer = AutoTokenizer.from_pretrained(model_id)

Recomendado para

Flujos de trabajo agentes
uso de herramientas
Productos estructurados
Asistentes multilingües
Asistentes en el dispositivo

Menos adecuado para

programación pesada
Control de calidad intensivo en conocimientos sin recuperación

Conclusiones clave

El LFM2.5-8B-A1B de Liquid AI tiene un total de 8,3 mil millones de parámetros pero activa solo 1,5 mil millones por token. Es sólo de razonamiento, con una ventana de contexto de 128K y cobertura en nueve idiomas. La tasa de no alucinaciones aumentó de 7,46 a 63,47 en comparación con LFM2-8B-A1B; El IFEval alcanzó 91,84. Decodifica 253 tok/s en un M5 Max de menos de 6 GB y ~30 tok/s en un teléfono. El soporte del primer día abarca llama.cpp, MLX, vLLM y SGLang, con base abierta y pesas post-entrenadas.

Consulte los pesos del modelo y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros