Los modelos pequeños a menudo se ven bloqueados por un ajuste deficiente de las instrucciones, formatos de uso de herramientas débiles y falta de gobernanza. El equipo de IA de IBM lanzó Granite 4.0 Nano, una pequeña familia de modelos que apunta a la inferencia local y de borde con controles empresariales y licencias abiertas. La familia incluye 8 modelos en dos tamaños, 350M y aproximadamente 1B, con variantes híbridas SSM y transformadoras, cada una en base e instrucción. Los modelos de la serie Granite 4.0 Nano se lanzan bajo una licencia Apache 2.0 con soporte de arquitectura nativa en tiempos de ejecución populares como vLLM, llama.cpp y MLX.
¿Qué hay de nuevo en la serie Granite 4.0 Nano?
Granite 4.0 Nano consta de cuatro líneas de modelos y sus homólogos básicos. Granite 4.0 H 1B utiliza una arquitectura híbrida basada en SSM y tiene aproximadamente 1,5 mil millones de parámetros. Granite 4.0 H 350M utiliza el mismo enfoque híbrido en 350M. Para una máxima portabilidad en tiempo de ejecución, IBM también proporciona Granite 4.0 1B y Granite 4.0 350M como versiones transformadoras.
Arquitectura y formación
Las variantes H intercalan capas SSM con capas de transformador. Este diseño híbrido reduce el crecimiento de la memoria frente a la atención pura, al tiempo que preserva la generalidad de los bloques transformadores. Los modelos Nano no utilizaron un canal de datos reducido. Fueron capacitados con la misma metodología Granite 4.0 y más de 15T tokens, luego se ajustaron las instrucciones para brindar un uso sólido de las herramientas y un seguimiento de las instrucciones. Esto traslada las fortalezas de los modelos Granite 4.0 más grandes a escalas sub 2B.
Benchmarks y contexto competitivo
IBM compara Granite 4.0 Nano con otros modelos inferiores a 2B, incluidos Qwen, Gemma y LiquidAI LFM. Los agregados informados muestran un aumento significativo en las capacidades en conocimientos generales, matemáticas, código y seguridad con presupuestos de parámetros similares. En las tareas de los agentes, los modelos superan a varios pares en IFEval y en Berkeley Function Calling Leaderboard v3.
Conclusiones clave
IBM lanzó 8 modelos Granite 4.0 Nano, 350M y alrededor de 1B cada uno, en variantes híbridas SSM y transformador, en base e instrucción, todos bajo Apache 2.0. Los modelos H híbridos, Granite 4.0 H 1B con aproximadamente 1.500 millones de parámetros y Granite 4.0 H 350M con aproximadamente 350 M, reutilizan la receta de entrenamiento de Granite 4.0 en más de 15 T tokens, por lo que la capacidad se hereda de la familia más grande y no de una rama de datos reducida. El equipo de IBM informa que Granite 4.0 Nano es competitivo con otros modelos sub 2B como Qwen, Gemma y LiquidAI LFM en general, matemáticas, código y seguridad, y que supera a IFEval y BFCLv3, que son importantes para los agentes que utilizan herramientas. Todos los modelos Granite 4.0, incluido Nano, están firmados criptográficamente, certificados ISO 42001 y lanzados para uso empresarial, lo que brinda procedencia y gobernanza que los modelos típicos de comunidades pequeñas no brindan. Los modelos están disponibles en Hugging Face e IBM watsonx.ai con soporte de tiempo de ejecución para vLLM, llama.cpp y MLX, lo que hace que las implementaciones a nivel local, de borde y de navegador sean realistas para los primeros ingenieros de IA y equipos de software.
IBM está haciendo lo correcto aquí: está tomando el mismo canal de capacitación de Granite 4.0, la misma escala de token de 15T, la misma arquitectura híbrida de transformador Mamba 2 plus, y reduciéndolo a 350 millones y aproximadamente 1 B para que las cargas de trabajo en el borde y en el dispositivo puedan utilizar la historia exacta de gobernanza y procedencia que ya tienen los modelos Granite más grandes. Los modelos son Apache 2.0, están alineados con ISO 42001, están firmados criptográficamente y ya se pueden ejecutar en vLLM, llama.cpp y MLX. En general, esta es una forma limpia y auditable de ejecutar pequeños LLM.
Consulte los pesos del modelo en HF y detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.