IBM lanzó nuevos modelos Granite 4.0 con una nueva arquitectura híbrida de mamba-2/transformador: reduciendo drásticamente el uso de la memoria sin sacrificar el rendimiento

IBM acaba de lanzar Granite 4.0, una familia LLM de código abierto que cambia los transformadores monolíticos por una pila híbrida de mamba-2/transformador para cortar la memoria de servicio mientras mantiene la calidad. Los tamaños abarcan un 3B denso “micro”, un “H-Micro” híbrido 3B 3B, un MOE híbrido 7b “H-pequeño” (~ 1b activo) y un MOE híbrido 32B “H-Small” (~ 9b activo). Los modelos son apache-2.0, firmados criptográficamente y, por IBM, los primeros modelos abiertos cubiertos por una certificación acreditada del sistema ISO/IEC 42001: 2023 AI Management. Están disponibles en Watsonx.ai y Via Docker Hub, Hugging Face, LM Studio, Nvidia Nim, Ollama, Replicate, Dell Pro AI Studio/Enterprise Hub, Kaggle, con Azure Ai Foundry …

Entonces, ¿qué hay de nuevo?

Granite 4.0 introduce un diseño híbrido que entrelaza una pequeña fracción de bloques de autoatensión con la mayoría de las capas de espacio de estado Mamba-2 (relación 9: 1). Según el blog técnico de IBM, en relación con las LLM de transformador convencionales, Granite 4.0-H puede reducir la RAM en> 70% para la inferencia de contexto y múltiples sesiones, traduciéndose en un costo de GPU más bajo a un objetivo de rendimiento/latencia dado. Las comparaciones internas de IBM también muestran los modelos más pequeños de granito 4.0 superan a Granite 3.3-8b a pesar de usar menos parámetros.

Dime, ¿cuáles son las variantes lanzadas?

IBM está enviando variantes base e instruye en cuatro modelos iniciales:

🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial

Granite-4.0-H-Small: 32B Total, ~ 9B Activo (MOE híbrido). Granite-4.0-H-Tiny: 7b total, ~ 1b activo (MOE híbrido). Granite-4.0-H-Micro: 3b (híbrido denso). Granite-4.0-Micro: 3B (transformador denso para pilas que aún no admiten híbridos).

Todos están apache-2.0 y firmados criptográficamente; IBM States Granite es la primera familia de modelo abierto con cobertura acreditada de ISO/IEC 42001 para su sistema de gestión de IA (AIMS). Las variantes optimizadas por el razonamiento (“pensamiento”) se planifican más adelante en 2025.

¿Cómo está entrenado, contexto y dtype?

Granite 4.0 fue entrenado en muestras de hasta 512k tokens y evaluó hasta 128k tokens. Los puntos de control públicos en la cara de abrazo son BF16 (también se publican las conversiones cuantificadas y GGUF), mientras que FP8 es una opción de ejecución en hardware compatible, no el formato de los pesos liberados.

Entendamos sus señales de rendimiento (Enterprise-Relevant)

IBM resalta la instrucción de la instrucción y los puntos de referencia de uso de herramientas:

Ifeval (Helm): Granite-4.0-H-Small lidera la mayoría de los modelos de peso abierto (solo un Llama 4 Maverick a una escala mucho mayor).

https://www.ibm.com/new/announcements/ibm-granite-4-0-hyper-eficiente-high-performance-hibrid-models

BFCLV3 (llamada de función): H-Small es competitivo con modelos abiertos/cerrados más grandes a precios más bajos.

https://www.ibm.com/new/announcements/ibm-granite-4-0-hyper-eficiente-high-performance-hibrid-models

MTRAG (trapo múltiple): mejor confiabilidad en flujos de trabajo de recuperación complejos.

https://www.ibm.com/new/announcements/ibm-granite-4-0-hyper-eficiente-high-performance-hibrid-models

¿Cómo puedo obtener acceso?

Granite 4.0 está en vivo en IBM Watsonx.ai y se distribuye a través de Dell Pro Ai Studio/Enterprise Hub, Docker Hub, Hugging Face, Kaggle, LM Studio, Nvidia Nim, Ollama, Opqueque, Replicada. IBM señala la habilitación continua para VLLM, LLAMA.CPP, NEXAML y MLX para la porción híbrida.

Veo la pila híbrida de Granite 4.0 Hybrid Mamba/Transformer y el MOE de paraméter activo como una ruta práctica para reducir el TCO:> 70% de reducción de la memoria y ganancias de rendimiento de contexto largo se traducen directamente en flotas más pequeñas de GPU sin sacrificar el seguimiento de las instrucciones o la precisión del uso de herramientas (Ifeval, BFCLV3, Mtrag). Los puntos de control BF16 con conversiones de GGUF simplifican las tuberías de evaluación locales y los artefactos firmados ISO/IEC 42001 más las brechas de procedencia/cumplimiento que generalmente detienen la implementación empresarial. Resultado neto: una familia del modelo base delgado y auditable (1B-9B activo) que es más fácil de producir que los transformadores de clase 8B anteriores.

Echa un vistazo a la tarjeta modelo de abrazadera y los detalles técnicos. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín. ¡Esperar! ¿Estás en Telegram? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial