Meta ha lanzado Mobilellm-r1una familia de modelos de razonamiento de borde liviano ahora disponibles en Cara abrazada. La versión incluye modelos que van de 140 m a parámetros de 950 m, con un enfoque en el razonamiento matemático, codificación y científico eficiente a escala de menor miles de millones.
A diferencia de los modelos de chat de propósito general, Mobilellm-R1 está diseñado para la implementación de bordes, con el objetivo de ofrecer una precisión de razonamiento de última generación mientras sigue siendo computacionalmente eficiente.
¿Qué poderes de arquitectura Mobilellm-R1?
El modelo más grande, Mobilellm-r1-950mintegra varias optimizaciones arquitectónicas:
- 22 capas del transformador con 24 cabezas de atención y 6 cabezas de KV agrupadas.
- Dimensión de incrustación: 1536; Dimensión oculta: 6144.
- Atención agrupada (GQA) reduce el cómputo y la memoria.
- Intercambio de pesas en el bloque Corta el recuento de parámetros sin sanciones de latencia pesadas.
- Activaciones de Swiglu Mejorar la representación del modelo pequeño.
- Longitud del contexto: 4K para la base, 32k para modelos posttrados.
- Vocabulario de 128k con incrustaciones de entrada/salida compartidas.
El énfasis está en reducir los requisitos de cálculo y memoria, lo que lo hace adecuado para la implementación en dispositivos restringidos.
¿Qué tan eficiente es el entrenamiento?
Mobilellm-R1 es notable para la eficiencia de los datos:
- Entrenado en ~ 4.2t tokens en total.
- En comparación, QWEN3 0.6B el modelo fue entrenado en Tokens 36t.
- Esto significa que Mobilellm-R1 solo usa ≈11.7% de los datos para alcanzar o superar la precisión de Qwen3.
- El post-entrenamiento aplica ajustes finos supervisados en matemáticas, codificación y conjuntos de datos de razonamiento.
Esta eficiencia se traduce directamente en menores costos de capacitación y demandas de recursos.
¿Cómo funciona con otros modelos abiertos?
En puntos de referencia, Mobilellm-R1-950m muestra ganancias significativas:
- Matemáticas (conjunto de datos Math500): ~5 × precisión más alta que Olmo-1.24b y ~2 × precisión más alta que Smollm2-1.7b.
- Razonamiento y codificación (GSM8K, AIME, LIVECODEBIGH): Coincide o supere Qwen3-0.6ba pesar de usar muchas menos fichas.
El modelo ofrece resultados típicamente asociados con arquitecturas más grandes mientras mantiene una huella más pequeña.
¿Dónde se queda corto Mobilellm-R1?
El enfoque del modelo crea limitaciones:
- Fuerte en Matemáticas, código y razonamiento estructurado.
- Más débil en conversación general, sentido común y tareas creativas en comparación con los LLM más grandes.
- Distribuido debajo Licencia de NC justa (no comercial)que restringe el uso en la configuración de producción.
- Contextos más largos (32k) elevar KV-Cache y demandas de memoria en inferencia.
¿Cómo se compara Mobilellm-R1 con Qwen3, Smollm2 y Olmo?
Instantánea de rendimiento (modelos posttrados):
| Modelo | Parámetros | Tokens de tren
Observaciones clave:
ResumenMobilellM-R1 de Meta subraya una tendencia hacia modelos más pequeños y optimizados por el dominio que ofrecen razonamiento competitivo sin presupuestos de capacitación masivos. Al lograr ganancias de rendimiento 2 × –5 × sobre modelos abiertos más grandes mientras se capacitan en una fracción de los datos, demuestra que la eficiencia, no solo la escala, definirá la próxima fase de la implementación de LLM, especialmente para los casos de uso matemático, codificación y científico en dispositivos de borde. Mira el Modelo en la cara abrazada. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público. You missed |
|---|