El panorama generativo de IA está dominado por modelos de lenguaje masivo, a menudo diseñado para las grandes capacidades de los centros de datos de la nube. Estos modelos, aunque potentes, hacen que sea difícil o imposible para los usuarios cotidianos implementar IA avanzada de manera privada y eficiente en dispositivos locales como computadoras portátiles, teléfonos inteligentes o sistemas integrados. En lugar de comprimir modelos a escala de la nube para el borde, a menudo, lo que resulta en compromisos de rendimiento sustanciales, el equipo detrás Petimetreador Hizo una pregunta más fundamental: ¿Qué pasaría si un modelo de idioma fuera diseñado desde el principio para las limitaciones locales?
Este fue el génesis para Petimetreadoruna familia de modelos de mezcla de expertos (MOE) desarrollados por investigadores de la Universidad de Shanghai Jiao Tong y Zergize AI, que se dirige a una inferencia en el dispositivo de alto rendimiento, limitada por memoria y limitada. Con dos variantes principales, SmallThinker-4B-A0.6B y SmallThinker-21B-A3B, establecen un nuevo punto de referencia para una IA eficiente y accesible.
Las limitaciones locales se convierten en principios de diseño
Innovaciones arquitectónicas
Mezcla de expertos (MOE) de grano fino:
A diferencia de las LLM monolíticas típicas, la columna vertebral de SmallTinker presenta un diseño MOE de grano fino. Múltiples redes de expertos especializadas están capacitadas, pero solo un subconjunto pequeño es activado Para cada token de entrada:
- SmallTinker-4B-A0.6B: 4 mil millones de parámetros en total, con solo 600 millones en juego por token.
- SmallThinker-21b-A3b: 21 mil millones de parámetros, de los cuales solo 3 mil millones están activos a la vez.
Esto permite una alta capacidad sin las sanciones de memoria y cálculo de modelos densos.
Sparsidad de alimentación basada en Reglu:
La escasez de activación se aplica aún más utilizando RegLu. Incluso dentro de los expertos activados, más del 60% de las neuronas están inactivas por paso de inferencia, realizando un ahorro masivo de cómputo y memoria.
Atención híbrida de no recta:
Para un manejo eficiente del contexto, Smallinker emplea un nuevo patrón de atención: alternando entre las capas globales de embarcación nopositional (NOPE) y las capas locales de ventana deslizante de la cuerda. Este enfoque admite grandes longitudes de contexto (hasta 32k tokens para 4B y 16k para 21b) pero recorta el tamaño de caché clave/valor en comparación con la atención tradicional totalmente global.
Enrutador previo a la atención y descarga inteligente:
Crítico para el uso en el dispositivo es el desacoplamiento de la velocidad de inferencia desde el almacenamiento lento. El “enrutador previo a la atención” de SmallTinker predice qué expertos serán necesarios antes de cada paso de atención, por lo que sus parámetros están prevenidos de SSD/flash en paralelo con el cálculo. El sistema se basa en almacenarse en caché de expertos “calientes” en RAM (utilizando una política de LRU), mientras que los especialistas menos utilizados permanecen en almacenamiento rápido. Este diseño esencialmente oculta el retraso de E/S y maximiza el rendimiento incluso con una memoria mínima del sistema.
Régimen de capacitación y procedimientos de datos
Los modelos de pequeños que se capacitaban de nuevo, no como destilaciones, en un plan de estudios que progresa desde el conocimiento general hasta los datos de STEM, matemáticos y de codificación altamente especializados:
- La variante 4B procesó 2.5 billones de tokens; El modelo 21B vio 7.2 billones.
- Los datos provienen de una combinación de colecciones curadas de código abierto, conjuntos de datos sintéticos y de datos sintéticos aumentados, y corpus supervisados con instrucciones.
- Las metodologías incluyeron filtros de calidad, síntesis de datos de estilo MGA y estrategias rápidas impulsadas por la personalidad, particularmente para aumentar el rendimiento en dominios formales y de razonamiento.
Resultados de referencia
En tareas académicas:
SmallTinker-21b-A3B, a pesar de activar muchos menos parámetros que los rivales equivalentes, se mantiene hombro con hombro o los supera en campos que van desde las matemáticas (Math-500, GPQA-Diamond) hasta la generación de códigos (Humaneval) y amplias evaluaciones de conocimiento (MMLU):
| Modelo | MMLU | GPQA | Matemáticas-500 | Ifeval | LiveBench | Humanal | Promedio |
|---|---|---|---|---|---|---|---|
| SmallTinker-21b-A3B | 84.4 | 55.1 | 82.4 | 85.8 | 60.3 | 89.6 | 76.3 |
| QWEN3-30B-A3B | 85.1 | 44.4 | 84.4 | 84.3 | 58.8 | 90.2 | 74.5 |
| Phi-4-14b | 84.6 | 55.5 | 80.2 | 63.2 | 42.4 | 87.2 | 68.8 |
| Gemma3-12b-it | 78.5 | 34.9 | 82.4 | 74.7 | 44.5 | 82.9 | 66.3 |
El modelo 4B-A0.6B también supera o coincide con otros modelos con similares activado Cuenta de parámetros, particularmente sobresaliendo en razonamiento y código.
En hardware real:
Donde SmallingTinker realmente brilla está en dispositivos hambrientos de memoria:
- El modelo 4B funciona cómodamente con tan solo 1 RAM GIB, y el modelo 21B con solo 8 GIB, sin caídas de velocidad catastrófica.
- La captación previa y el almacenamiento en caché significa que incluso bajo estos límites, la inferencia sigue siendo mucho más rápida y suave que los modelos de línea de base simplemente cambiados al disco.
Por ejemplo, la variante 21B-A3B mantiene más de 20 tokens/seg en una CPU estándar, mientras que QWEN3-30B-A3B casi se bloquea bajo restricciones de memoria similares.
Impacto de la escasez y la especialización
Especialización de expertos:
Los registros de activación revelan que el 70-80% de los expertos se usan escasamente, mientras que unos pocos expertos en “puntos de acceso” se iluminan para dominios o idiomas específicos, una propiedad que permite el almacenamiento en caché altamente predecible y eficiente.
Escasez a nivel de neuronas:
Incluso dentro de los expertos activos, las tasas medianas de inactividad de la neurona superan el 60%. Las primeras capas son casi completamente escasas, mientras que las capas más profundas conservan esta eficiencia, ilustrando por qué Smallytinker logra hacer tanto con tan poco cómputo.
Limitaciones del sistema y trabajo futuro
Si bien los logros son sustanciales, el pequeño pensador no está exento de advertencias:
- Tamaño del conjunto de entrenamiento: Su corpus preventivo, aunque masivo, es aún más pequeño que los detrás de algunos modelos de nubes fronterizas, limitando potencialmente la generalización en dominios raros u oscuros.
- Alineación del modelo: Solo se aplica ajustado supervisado; A diferencia de LEDRED Cloud LLMS, no se utiliza el aprendizaje de refuerzo de la retroalimentación humana, posiblemente dejando algunas brechas de seguridad y ayuda.
- Cobertura del idioma: El inglés y el chino, con STEM, dominan la capacitación: otros idiomas pueden ver una calidad reducida.
Los autores anticipan expandir los conjuntos de datos e introducir tuberías RLHF en futuras versiones.
Conclusión
Petimetreador Representa una desviación radical de la tradición “Modelos de nubes de contracción para el borde”. Al comenzar desde las limitaciones locales, ofrece alta capacidad, alta velocidad y bajo uso de memoria a través de la innovación arquitectónica y de sistemas. Esto abre la puerta a una IA privada, receptiva y capaz en casi cualquier dispositivo, evitando la tecnología de lenguaje avanzado para una franja mucho más amplia de usuarios y casos de uso.
Los modelos, SmallThinker-4B-A0.6B-Instructo y SmallThinker-21B-A3B-Instructo, están disponibles gratuitamente para investigadores y desarrolladores, y son una prueba convincente de lo que es posible cuando el diseño del modelo está impulsado por realidades de despliegue, no solo la ambición del centro de datos.
Mira el Papel, Pequeño thinker-4b-a0.6b-instructo y SmallTinker-21b-A3b-Instructo aquí. No tener en cuenta Consulte nuestra página de tutoriales sobre AI Agent y Agentic AI para varias aplicaciones. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarkTechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.