Meta AI lanzado Mobilellm-R1: un modelo de razonamiento de borde con menos de 1B parámetros y logra un aumento de rendimiento de 2x-5x sobre otros modelos de IA de código abierto

Meta ha lanzado Mobilellm-r1una familia de modelos de razonamiento de borde liviano ahora disponibles en Cara abrazada. La versión incluye modelos que van de 140 m a parámetros de 950 m, con un enfoque en el razonamiento matemático, codificación y científico eficiente a escala de menor miles de millones.

A diferencia de los modelos de chat de propósito general, Mobilellm-R1 está diseñado para la implementación de bordes, con el objetivo de ofrecer una precisión de razonamiento de última generación mientras sigue siendo computacionalmente eficiente.

¿Qué poderes de arquitectura Mobilellm-R1?

El modelo más grande, Mobilellm-r1-950mintegra varias optimizaciones arquitectónicas:

22 capas del transformador con 24 cabezas de atención y 6 cabezas de KV agrupadas.
Dimensión de incrustación: 1536; Dimensión oculta: 6144.
Atención agrupada (GQA) reduce el cómputo y la memoria.
Intercambio de pesas en el bloque Corta el recuento de parámetros sin sanciones de latencia pesadas.
Activaciones de Swiglu Mejorar la representación del modelo pequeño.
Longitud del contexto: 4K para la base, 32k para modelos posttrados.
Vocabulario de 128k con incrustaciones de entrada/salida compartidas.

El énfasis está en reducir los requisitos de cálculo y memoria, lo que lo hace adecuado para la implementación en dispositivos restringidos.

¿Qué tan eficiente es el entrenamiento?

Mobilellm-R1 es notable para la eficiencia de los datos:

Entrenado en ~ 4.2t tokens en total.
En comparación, QWEN3 0.6B el modelo fue entrenado en Tokens 36t.
Esto significa que Mobilellm-R1 solo usa ≈11.7% de los datos para alcanzar o superar la precisión de Qwen3.
El post-entrenamiento aplica ajustes finos supervisados en matemáticas, codificación y conjuntos de datos de razonamiento.

Esta eficiencia se traduce directamente en menores costos de capacitación y demandas de recursos.

¿Cómo funciona con otros modelos abiertos?

En puntos de referencia, Mobilellm-R1-950m muestra ganancias significativas:

Matemáticas (conjunto de datos Math500): ~5 × precisión más alta que Olmo-1.24b y ~2 × precisión más alta que Smollm2-1.7b.
Razonamiento y codificación (GSM8K, AIME, LIVECODEBIGH): Coincide o supere Qwen3-0.6ba pesar de usar muchas menos fichas.

El modelo ofrece resultados típicamente asociados con arquitecturas más grandes mientras mantiene una huella más pequeña.

¿Dónde se queda corto Mobilellm-R1?

El enfoque del modelo crea limitaciones:

Fuerte en Matemáticas, código y razonamiento estructurado.
Más débil en conversación general, sentido común y tareas creativas en comparación con los LLM más grandes.
Distribuido debajo Licencia de NC justa (no comercial)que restringe el uso en la configuración de producción.
Contextos más largos (32k) elevar KV-Cache y demandas de memoria en inferencia.

¿Cómo se compara Mobilellm-R1 con Qwen3, Smollm2 y Olmo?

Instantánea de rendimiento (modelos posttrados):

Modelo

Parámetros

Tokens de tren

Observaciones clave:

Partidos de R1-950m Qwen3-0.6b en matemáticas (74.0 vs 73.0) mientras requiere ~8.6 × menos fichas.
Brechas de rendimiento vs Smollm2 y Olmo son sustanciales en todas las tareas de razonamiento.
QWEN3 mantiene una ventaja en GSM8K, pero la diferencia es pequeña en comparación con la ventaja de eficiencia de entrenamiento.

Resumen

MobilellM-R1 de Meta subraya una tendencia hacia modelos más pequeños y optimizados por el dominio que ofrecen razonamiento competitivo sin presupuestos de capacitación masivos. Al lograr ganancias de rendimiento 2 × –5 × sobre modelos abiertos más grandes mientras se capacitan en una fracción de los datos, demuestra que la eficiencia, no solo la escala, definirá la próxima fase de la implementación de LLM, especialmente para los casos de uso matemático, codificación y científico en dispositivos de borde.

Mira el Modelo en la cara abrazada. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

By Equipo de 7 minutos

Inteligencia artificial

Puedes usar IA para ayudar a hacer una película, pero no puedes usar actores o escritores de IA.

May 2, 2026 Equipo de 7 minutos

Inteligencia artificial

Una nueva investigación de NVIDIA muestra que la decodificación especulativa en NeMo RL logra una aceleración de la generación de implementación de 1,8 veces a 8 B y proyecta una aceleración de 2,5 veces de extremo a extremo a 235 B

May 2, 2026 Equipo de 7 minutos

Inteligencia artificial

Una implementación de codificación de decodificación cerebral de extremo a extremo a partir de señales MEG utilizando NeuralSet y aprendizaje profundo para predecir características lingüísticas

May 2, 2026 Equipo de 7 minutos

You missed

Política

El tribunal encuentra alucinaciones de IA en la presentación de un ex candidato al Senado estatal

May 2, 2026 Equipo de 7 minutos

Noticias españa

El 83% de España preocupa por la guerra en Irán y el 60% ve positiva la respuesta del presidente Sánchez: quema bandera americana en Palma

May 2, 2026 Equipo de 7 minutos

Artistas

La foto del cumpleaños número 11 de la princesa Charlotte se parece a Kate Middleton

May 2, 2026 Equipo de 7 minutos

Inteligencia artificial

Puedes usar IA para ayudar a hacer una película, pero no puedes usar actores o escritores de IA.

May 2, 2026 Equipo de 7 minutos

Meta AI lanzado Mobilellm-R1: un modelo de razonamiento de borde con menos de 1B parámetros y logra un aumento de rendimiento de 2x-5x sobre otros modelos de IA de código abierto

ByEquipo de 7 minutos

¿Qué poderes de arquitectura Mobilellm-R1?

¿Qué tan eficiente es el entrenamiento?

¿Cómo funciona con otros modelos abiertos?

¿Dónde se queda corto Mobilellm-R1?

¿Cómo se compara Mobilellm-R1 con Qwen3, Smollm2 y Olmo?

Resumen

By Equipo de 7 minutos

Related Post

Puedes usar IA para ayudar a hacer una película, pero no puedes usar actores o escritores de IA.

Una nueva investigación de NVIDIA muestra que la decodificación especulativa en NeMo RL logra una aceleración de la generación de implementación de 1,8 veces a 8 B y proyecta una aceleración de 2,5 veces de extremo a extremo a 235 B

Una implementación de codificación de decodificación cerebral de extremo a extremo a partir de señales MEG utilizando NeuralSet y aprendizaje profundo para predecir características lingüísticas

You missed

El tribunal encuentra alucinaciones de IA en la presentación de un ex candidato al Senado estatal

El 83% de España preocupa por la guerra en Irán y el 60% ve positiva la respuesta del presidente Sánchez: quema bandera americana en Palma

La foto del cumpleaños número 11 de la princesa Charlotte se parece a Kate Middleton

Puedes usar IA para ayudar a hacer una película, pero no puedes usar actores o escritores de IA.