IBM libera granito 3.3 8b: un nuevo modelo de voz a texto (STT) que sobresale en el reconocimiento automático de voz (ASR) y la traducción automática del habla (AST)

A medida que la inteligencia artificial continúa integrándose en los sistemas empresariales, la demanda de modelos que combinan flexibilidad, eficiencia y transparencia ha aumentado. Las soluciones existentes a menudo luchan por cumplir con todos estos requisitos. Los modelos de código abierto pueden carecer de capacidades específicas de dominio, mientras que los sistemas patentados a veces limitan el acceso o la adaptabilidad. Este déficit es especialmente pronunciado en tareas que involucran reconocimiento de voz, razonamiento lógico y generación de recuperación acuática (TRAPO), donde la fragmentación técnica y la incompatibilidad de la cadena de herramientas crean cuellos de botella operativos.

IBM libera Granite 3.3 con actualizaciones en discurso, razonamiento y recuperación

IBM ha introducido Granite 3.3, un conjunto de modelos de base abiertos diseñados para aplicaciones empresariales. Este lanzamiento ofrece actualizaciones en tres dominios: procesamiento del habla, capacidades de razonamiento y mecanismos de recuperación. Granite Speech 3.3 8b es el primer modelo abierto de voz a texto (STT) y traducción automática de discurso (AST). Logra una mayor precisión de la transcripción y una mejor calidad de traducción en comparación con los sistemas basados ​​en Whisper. El modelo está diseñado para manejar secuencias de audio largas con una introducción de artefactos reducido, mejorando la usabilidad en escenarios del mundo real.

Granite 3.3 8b Instruce extiende las capacidades del modelo central con soporte para la generación de texto de relleno en el medio (FIM) y mejoras en el razonamiento simbólico y matemático. Estas mejoras se reflejan en el rendimiento de referencia, incluido el rendimiento superior de LLAMA 3.1 8B y Claude 3.5 Haiku en el conjunto de datos MATH500.

Fundamentos técnicos y arquitectura

Granite Speech 3.3 8b utiliza una arquitectura modular que consiste en un codificador de voz y adaptadores de audio basados ​​en Lora. Este diseño permite un ajuste fino eficiente específico del dominio al tiempo que conserva la capacidad de generalización del modelo base. El modelo admite tareas de transcripción y traducción, lo que permite el procesamiento de contenido multilingüe.

Los modelos Granite 3.3 Instruce incorporan la generación de relleno en el medio, que admiten tareas como la edición de documentos y la finalización del código. Junto, IBM presenta cinco adaptadores de Lora adaptados para flujos de trabajo de trapo. Estos adaptadores apoyan una mejor integración del conocimiento externo, mejorando la precisión objetiva y la relevancia contextual durante la generación.

Una adición notable es Lora adaptativa (Alora), que reutiliza el caché del valor clave (KV) a través de las sesiones de inferencia. Esto conduce a una reducción en el consumo y la latencia de la memoria, particularmente en los entornos de transmisión o recuperación de múltiples saltos. Alora está diseñada para ofrecer mejores compensaciones entre los gastos generales computacionales y el rendimiento en las cargas de trabajo de recuperación.

Resultados de referencia y soporte de plataforma

Granite Speech 3.3 8B demuestra un rendimiento superior sobre las líneas de base de estilo Whisper en la transcripción y la traducción en múltiples idiomas. El modelo funciona de manera confiable en entradas de audio extendidas, manteniendo la coherencia y la precisión sin una deriva significativa.

En el razonamiento simbólico, el instructo de granito 3.3 muestra una precisión mejorada en el punto de referencia Math500, superando los modelos comparables en la escala de parámetros 8B. Los adaptadores de Lora y Alora específicos de RAG demuestran una mejor integración de recuperación y conexión a tierra, que son críticos para aplicaciones empresariales que involucran contenido dinámico y consultas de contexto largo.

IBM ha realizado todos los modelos, variantes de Lora y herramientas asociadas de código abierto y accesible a través de una cara de abrazo. Además, las opciones de implementación están disponibles a través de WatsonX.AI de IBM, así como plataformas de terceros, incluidas Ollama, LMStudio y replicada.

Conclusión

Granite 3.3 marca un paso adelante en el esfuerzo de IBM para desarrollar sistemas de IA robustos, modulares y transparentes. El lanzamiento se dirige a las necesidades críticas en el procesamiento del habla, la inferencia lógica y la generación de recuperación augtada al ofrecer actualizaciones técnicas basadas en mejoras medibles. La inclusión de Alora para la recuperación de la memoria-eficiente, el soporte para las tareas de relleno en el medio y los avances en el modelado de voz multilingüe hacen que Granite 3.3 sea una opción técnicamente sólida para entornos empresariales. Su lanzamiento de código abierto fomenta aún más la adopción, la experimentación y el desarrollo continuo en la comunidad de IA más amplia.


Mira el Serie de modelos en la cara abrazada y Detalle técnico. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.