IBM AI lanza Granite 4.0 1B Speech como un modelo de voz multilingüe compacto para Edge AI y canales de traducción

IBM ha lanzado Granite 4.0 1B Speech, un modelo compacto de voz y lenguaje diseñado para el reconocimiento automático de voz (ASR) multilingüe y la traducción automática de voz (AST) bidireccional. El lanzamiento está dirigido a implementaciones de voz empresariales y de estilo perimetral donde el uso de memoria, la latencia y la eficiencia informática son tan importantes como la calidad de referencia bruta.

Qué cambió en el discurso de Granite 4.0 1B

En el centro del lanzamiento hay un objetivo de diseño sencillo: reducir el tamaño del modelo sin perder las capacidades básicas que se esperan de un sistema de voz multilingüe moderno. Granite 4.0 1B Speech tiene la mitad de parámetros que granito-speech-3.3-2b, al tiempo que agrega ASR japonés, sesgo de lista de palabras clave y precisión mejorada de la transcripción en inglés. El modelo proporciona una inferencia más rápida mediante un mejor entrenamiento del codificador y una decodificación especulativa. Eso hace que el lanzamiento se centre menos en impulsar la escala del modelo hacia arriba y más en ajustar el equilibrio entre eficiencia y calidad para una implementación práctica.

Enfoque de capacitación y alineación de modalidades

Granite-4.0-1b-speech es un modelo de habla y lenguaje compacto y eficiente entrenado para ASR multilingüe y AST bidireccional. La combinación de capacitación incluye corpus públicos de ASR y AST junto con datos sintéticos utilizados para respaldar el ASR japonés, el ASR sesgado por palabras clave y la traducción de voz. Este es un detalle importante para los desarrolladores porque muestra que el equipo de IBM no creó una pila de voz cerrada separada desde cero; adaptó un modelo de lenguaje base Granite 4.0 a un modelo con capacidad de habla mediante alineación y entrenamiento multimodal.

Cobertura de idiomas y uso previsto

El conjunto de idiomas admitidos incluye inglés, francés, alemán, español, portugués y japonés. IBM posiciona el modelo de voz a texto y traducción de voz hacia y desde el inglés para esos idiomas. También admite escenarios de traducción de inglés a italiano y de inglés a mandarín. El modelo se lanza bajo la licencia Apache 2.0, lo que lo hace más sencillo para los equipos que evalúan opciones de implementación abierta en comparación con los sistemas de voz que conllevan restricciones comerciales o patrones de acceso solo API.

Diseño de dos pasos y estructura de tubería

El equipo Granite Speech de IBM describe la familia Granite Speech como si utilizara un diseño de dos pasos. En esa configuración, una llamada inicial transcribe audio a texto, y cualquier razonamiento posterior del modelo de lenguaje sobre la transcripción requiere una segunda llamada explícita al modelo de lenguaje Granite. Esto difiere de las arquitecturas integradas que combinan la generación de voz y lenguaje en una sola pasada. Para los desarrolladores, esto es importante porque afecta la orquestación. Un proceso de transcripción construido alrededor de Granite Speech tiene un diseño modular: el reconocimiento de voz es lo primero y el posprocesamiento a nivel del lenguaje es un paso separado.

Resultados de Benchmark y Posicionamiento en Eficiencia

Granite 4.0 1B Speech ocupó recientemente el puesto número 1 en la clasificación de OpenASR. La fila de la tabla de clasificación Open ASR indica un WER promedio de 5,52 y un RTFx de 280,02, junto con valores WER específicos del conjunto de datos como 1,42 en LibriSpeech Clean, 2,85 en LibriSpeech Other, 3,89 en SPGISpeech, 3,1 en Tedlium y 5,84 en VoxPopuli.

Detalles de implementación

Para la implementación, Granite 4.0 1B Speech se admite de forma nativa en transformadores>=4.52.1 y se puede servir a través de vLLM, lo que brinda a los equipos opciones de servicio de inferencia estándar de Python y estilo API. El flujo de transformadores de referencia de IBM utiliza AutoModelForSpeechSeq2Seq y AutoProcessor, espera audio mono de 16 kHz y formatea las solicitudes anteponiendo <|audio|> al mensaje del usuario; La polarización de palabras clave se puede agregar directamente en el mensaje como Palabras clave: , …. Para entornos de menores recursos, el ejemplo vLLM de IBM establece max_model_len=2048 y limit_mm_per_prompt={“audio”: 1}, mientras que el servicio en línea se puede exponer a través de vllmserve con una interfaz API compatible con OpenAI.

Conclusiones clave

Granite 4.0 1B Speech es un modelo compacto de habla y lenguaje para ASR multilingüe y AST bidireccional. El modelo tiene la mitad de los parámetros de granito-speech-3.3-2b y al mismo tiempo mejora la eficiencia de implementación. El lanzamiento agrega ASR japonés y sesgo de lista de palabras clave para flujos de trabajo de transcripción más específicos. Admite la implementación a través de Transformers, vLLM y mlx-audio, incluidos los entornos Apple Silicon. El modelo está posicionado para dispositivos con recursos limitados donde la latencia, la memoria y el costo de computación son críticos.

Consulte la página del modelo, el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.