LFM2-2.6B-Exp de Liquid AI utiliza RL de aprendizaje por refuerzo puro y razonamiento híbrido dinámico para reforzar el comportamiento de los modelos pequeños

Liquid AI ha introducido LFM2-2.6B-Exp, un punto de control experimental de su modelo de lenguaje LFM2-2.6B que se entrena con aprendizaje por refuerzo puro sobre la pila LFM2 existente. El objetivo es simple: mejorar el seguimiento de instrucciones, las tareas de conocimiento y las matemáticas para un modelo de clase 3B pequeño que aún se centra en la implementación de dispositivos y de borde.

¿Dónde encaja el LFM2-2.6B-Exp en la familia LFM2?

LFM2 es la segunda generación de modelos de base líquida. Está diseñado para una implementación eficiente en teléfonos, computadoras portátiles y otros dispositivos periféricos. Liquid AI describe LFM2 como un modelo híbrido que combina bloques de convolución LIV de corto alcance con bloques de atención de consultas agrupados, controlados por puertas multiplicativas.

La familia incluye 4 tamaños densos, LFM2-350M, LFM2-700M, LFM2-1.2B y LFM2-2.6B. Todos comparten una longitud de contexto de 32.768 tokens, un tamaño de vocabulario de 65.536 y precisión bfloat16. El modelo 2.6B utiliza 30 capas, con 22 capas de convolución y 8 capas de atención. Cada tamaño se entrena con un presupuesto de 10 billones de tokens.

El LFM2-2.6B ya se posiciona como un modelo de alta eficiencia. Alcanza el 82,41 por ciento en GSM8K y el 79,56 por ciento en IFEval. Esto lo coloca por delante de varios modelos de clase 3B, como Llama 3.2 3B Instruct, Gemma 3 4B it y SmolLM3 3B en estos puntos de referencia.

LFM2-2.6B-Exp mantiene esta arquitectura. Reutiliza la misma tokenización, ventana contextual y perfil de hardware. El punto de control se centra únicamente en cambiar el comportamiento a través de una etapa de aprendizaje por refuerzo.

https://huggingface.co/LiquidAI/LFM2-2.6B-Exp

RL puro sobre una base alineada y previamente entrenada

Este punto de control se basa en LFM2-2.6B utilizando aprendizaje por refuerzo puro. Está capacitado específicamente en seguimiento de instrucciones, conocimiento y matemáticas.

La pila de entrenamiento subyacente de LFM2 combina varias etapas. Incluye ajustes supervisados ​​a muy gran escala en una combinación de tareas posteriores y dominios generales, optimización de preferencias directas personalizada con normalización de longitud, fusión de modelos iterativos y aprendizaje reforzado con recompensas verificables.

Pero, ¿qué significa exactamente “aprendizaje por refuerzo puro”? LFM2-2.6B-Exp comienza desde el punto de control LFM2-2.6B existente y luego pasa por un programa de entrenamiento RL secuencial. Comienza con el seguimiento de instrucciones, luego extiende la capacitación de RL a indicaciones orientadas al conocimiento, matemáticas y una pequeña cantidad de uso de herramientas, sin un calentamiento adicional de SFT o un paso de destilación en esa fase final.

El punto importante es que LFM2-2.6B-Exp no cambia la arquitectura base ni el entrenamiento previo. Cambia la política a través de una etapa de RL que utiliza recompensas verificables, en un conjunto específico de dominios, además de un modelo que ya está supervisado y alineado con las preferencias.

Señal de referencia, especialmente en IFBench

El equipo de Liquid AI destaca IFBench como la principal métrica principal. IFBench es un punto de referencia de seguimiento de instrucciones que comprueba la fiabilidad con la que un modelo sigue instrucciones complejas y restringidas. En este punto de referencia, LFM2-2.6B-Exp supera a DeepSeek R1-0528, que según se informa es 263 veces mayor en número de parámetros.

Los modelos LFM2 brindan un rendimiento sólido en un conjunto estándar de pruebas comparativas como MMLU, GPQA, IFEval, GSM8K y conjuntos relacionados. El modelo base 2.6B ya compite bien en el segmento 3B. El punto de control RL luego impulsa aún más el seguimiento de instrucciones y las matemáticas, mientras se mantiene en el mismo presupuesto de parámetros 3B.

Arquitectura y capacidades que importan

La arquitectura utiliza 10 bloques de convolución LIV de corto alcance y doble puerta y 6 bloques de atención de consultas agrupados, dispuestos en una pila híbrida. Este diseño reduce el costo de la caché KV y mantiene la inferencia rápida en las GPU y NPU de consumo.

La combinación previa al entrenamiento utiliza aproximadamente un 75 por ciento de inglés, un 20 por ciento de datos multilingües y un 5 por ciento de código. Los idiomas admitidos incluyen inglés, árabe, chino, francés, alemán, japonés, coreano y español.

Los modelos LFM2 exponen una plantilla similar a ChatML y tokens de uso de herramientas nativas. Las herramientas se describen como JSON entre marcadores de lista de herramientas dedicados. Luego, el modelo emite llamadas similares a Python entre marcadores de llamadas de herramientas y lee respuestas de herramientas entre marcadores de respuestas de herramientas. Esta estructura hace que el modelo sea adecuado como núcleo de agente para pilas de llamadas de herramientas sin ingeniería de avisos personalizada.

LFM2-2.6B, y por extensión LFM2-2.6B-Exp, es también el único modelo de la familia que permite el razonamiento híbrido dinámico a través de tokens de pensamiento especiales para entradas complejas o multilingües. Esa capacidad permanece disponible porque el punto de control de RL no cambia la tokenización ni la arquitectura.

Conclusiones clave

LFM2-2.6B-Exp es un punto de control experimental de LFM2-2.6B que agrega una etapa de aprendizaje por refuerzo puro además de una base previamente entrenada, supervisada y alineada con las preferencias, dirigida al seguimiento de instrucciones, tareas de conocimiento y matemáticas. La red troncal LFM2-2.6B utiliza una arquitectura híbrida que combina bloques de convolución LIV de corto alcance con doble puerta y bloques de atención de consultas agrupados, con 30 capas, 22 capas de convolución y 8 capas de atención, una longitud de contexto de 32 768 tokens y un presupuesto de entrenamiento de tokens de 10 billones con 2,6 mil millones de parámetros. LFM2-2.6B ya logra sólidos puntajes de referencia en la clase 3B, alrededor del 82,41 por ciento en GSM8K y 79,56 por ciento en IFEval, y el punto de control LFM2-2.6B-Exp RL mejora aún más el seguimiento de instrucciones y el rendimiento matemático sin cambiar la arquitectura o el perfil de memoria. Liquid AI informa que en IFBench, una instrucción que sigue el punto de referencia, LFM2-2.6B-Exp supera a DeepSeek R1-0528 a pesar de que este último tiene muchos más parámetros, lo que muestra un sólido rendimiento por parámetro para configuraciones de implementación restringidas. LFM2-2.6B-Exp se lanza en Hugging Face con pesos abiertos bajo la licencia LFM Open License v1.0 y es compatible con las cuantificaciones de Transformers, vLLM, llama.cpp GGUF y ONNXRuntime, lo que lo hace adecuado para sistemas agentes, extracción de datos estructurados, generación aumentada de recuperación y asistentes de dispositivos donde se requiere un modelo 3B compacto.

Consulta el modelo aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Max es un analista de inteligencia artificial en MarkTechPost, con sede en Silicon Valley, que da forma activamente al futuro de la tecnología. Enseña robótica en Brainvyne, combate el spam con ComplyEmail y aprovecha la IA a diario para traducir avances tecnológicos complejos en conocimientos claros y comprensibles.