IBM ha introducido una vista previa de Granito 4.0 pequeñoel miembro más pequeño de su próxima familia Granite 4.0 de modelos de idiomas. Liberado bajo el Licencia Apache 2.0este modelo compacto está diseñado para tareas de contexto a largo plazo y escenarios de seguimiento de instrucciones, logrando un equilibrio entre eficiencia, transparencia y rendimiento. El lanzamiento refleja el enfoque continuo de IBM en ofrecer modelos de base abiertos, auditables y listos para la empresa.
Granite 4.0 Tiny Preview incluye dos variantes clave: el Previsión de la baseque muestra una nueva arquitectura de decodificador, y el Previa pequeña (instrucción)que está ajustado para el diálogo y las aplicaciones multilingües. A pesar de su huella de parámetros reducido, Granite 4.0 Tiny demuestra resultados competitivos en los puntos de referencia de razonamiento y generación, lo que subraya los beneficios de su diseño híbrido.
Descripción general de la arquitectura: un moe híbrido con dinámica de estilo Mamba-2
En el núcleo de Granite 4.0 Tiny se encuentra un Mezcla híbrida de expertos (MOE) estructura, con 7 mil millones de parámetros totales y Solo 1 mil millones de parámetros activos por pase hacia adelante. Esta escasez permite que el modelo entregue un rendimiento escalable al tiempo que reduce significativamente la sobrecarga computacional, lo que lo hace bien adecuado para entornos de recursos limitados e inferencia de borde.
El Previsión de la base la variante emplea un arquitectura de solo decodificador aumentado con Capas de estilo mamba-2—Un alternativa recurrente lineal a los mecanismos de atención tradicionales. Este cambio arquitectónico permite que el modelo escala de manera más eficiente con la longitud de entrada, mejorando su idoneidad para tareas de contexto a largo plazo, como la comprensión del documento, el resumen del diálogo y el QA intensivo en conocimiento.
Otra decisión de diseño notable es el uso de No (sin codificaciones posicionales). En lugar de incrustaciones posicionales fijas o aprendidas, el modelo integra el manejo de posición directamente en su dinámica de capa. Este enfoque mejora la generalización en diferentes longitudes de entrada y ayuda a mantener la consistencia en la generación de secuencia larga.
Rendimiento de referencia: eficiencia sin compromiso
A pesar de ser un lanzamiento previo, Granite 4.0 Tiny ya exhibe ganancias de rendimiento significativas sobre modelos anteriores en la serie Granite de IBM. En evaluaciones de referencia, el Previsión de la base demuestra:
- +5.6 Mejora en la caída (Razonamiento discreto sobre los párrafos), un punto de referencia para el control de calidad múltiple
- +3.8 en Agievalque evalúa la comprensión y el razonamiento del lenguaje general
Estas mejoras se atribuyen tanto a la arquitectura del modelo como a su extenso preventaje, reportamente sobre 2.5 billones de tokensque abarcan diversos dominios y estructuras lingüísticas.
Variante de instrucciones ajustada: diseñado para diálogo, claridad y alcance multilingüe
El Granite-4.0 pequeña previa (instrucción) la variante extiende el modelo base a través de Ajuste de fino supervisado (SFT) y Aprendizaje de refuerzo (RL)utilizando un conjunto de datos de estilo Tülu que consta de diálogos abiertos y sintéticos. Esta variante se adapta a los casos de uso de instrucciones y de uso interactivo.
Secundario 8,192 ventanas de entrada de tokens y 8,192 longitudes de generación de tokensel modelo mantiene la coherencia y la fidelidad a través de interacciones extendidas. A diferencia de los híbridos codificadores-decodificadores que a menudo intercambian la interpretabilidad para el rendimiento, la configuración de decodificador aquí produce aquí salidas más claras y más rastreables—Un característica valiosa para aplicaciones empresariales y críticas de seguridad.
Puntajes de evaluación:
- 86.1 en Ifevalindicando un rendimiento fuerte en los puntos de referencia de seguimiento de instrucciones
- 70.05 en GSM8Kpara la resolución de problemas de matemáticas de la escuela primaria
- 82.41 en humanevalMedición de la precisión de la generación de código de Python
Además, el modelo de instrucción admite interacción multilingüe en 12 idiomashaciéndolo viable para implementaciones globales en servicio al cliente, automatización empresarial y herramientas educativas.
Disponibilidad e integración de ecosistemas de código abierto
IBM ha puesto a disposición públicamente en ambos modelos en la cara de abrazo:
Los modelos están acompañados de pesos de modelos completos, archivos de configuración y scripts de uso de muestras en el Licencia Apache 2.0alentando la experimentación transparente, el ajuste fino y la integración a través de flujos de trabajo NLP aguas abajo.
Outlook: sentar las bases para Granite 4.0
Granite 4.0 Tiny Preview sirve como una visión temprana de la estrategia más amplia de IBM para su suite de modelos de idiomas de próxima generación. Al combinar Arquitecturas de MOE eficientes, soporte de contexto largoy ajuste centrado en las instruccionesla familia modelo tiene como objetivo ofrecer capacidades de última generación en un paquete controlable y eficiente en recursos.
A medida que se publican más variantes de Granite 4.0, podemos esperar que IBM profundice su inversión en IA responsable y abierta, posicionándose como un jugador clave para dar forma al futuro de los modelos de lenguaje transparente y de alto rendimiento para empresas e investigaciones.
Mira el Detalle técnico, Vista previa de la base de granito 4.0 y Granite 4.0 Tiny Instruct Preview. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit. Para promoción y asociaciones, Por favor, hable.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.