Kyutai lanza Hibiki-Zero: modelo de traducción simultánea de voz a voz con parámetros A3B que utiliza el aprendizaje por refuerzo GRPO sin datos alineados a nivel de palabra

Kyutai ha lanzado Hibiki-Zero, un nuevo modelo para traducción simultánea de voz a voz (S2ST) y traducción de voz a texto (S2TT). El sistema traduce el discurso de origen al idioma de destino en tiempo real. Maneja dependencias de palabras no monótonas durante el proceso. A diferencia de los modelos anteriores, Hibiki-Zero no requiere datos alineados a nivel de palabra para el entrenamiento. Esto elimina un obstáculo importante a la hora de ampliar la traducción de IA a más idiomas.

Los enfoques tradicionales se basan en una formación supervisada con alineaciones a nivel de palabras. Estos alineamientos son difíciles de recopilar a escala. Los desarrolladores suelen depender de alineaciones sintéticas y heurísticas específicas del lenguaje. Hibiki-Zero elimina esta complejidad mediante el uso de una novedosa estrategia de aprendizaje por refuerzo (RL) para optimizar la latencia.

https://kyutai.org/blog/2026-02-12-hibiki-zero

Una arquitectura multiflujo

Hibiki-Zero es un modelo sólo decodificador. Utiliza una arquitectura multistream para modelar secuencias de tokens de forma conjunta. El modelo maneja 3 corrientes específicas:

Flujo fuente: tokens de audio del discurso de entrada. Target Stream: tokens de audio generados para el discurso traducido. Monólogo interno: un flujo de tokens de texto acolchados que coinciden con el audio de destino.

El sistema utiliza el códec de audio neuronal Mimi. Mimi es un códec causal y de transmisión que codifica formas de onda en tokens discretos. Funciona a una velocidad de fotogramas de 12,5 Hz. El modelo utiliza un RQ-Transformer para modelar estos flujos de audio.

Las especificaciones arquitectónicas incluyen:

Parámetros totales: 3B. Transformador temporal: 28 capas con una dimensión latente de 2048. Transformador de profundidad: 6 capas por libro de códigos con una dimensión latente de 1024. Ventana de contexto: 4 min. Libros de códigos de audio: 16 niveles para voz de alta calidad.

Entrenamiento sin datos de interpretación humana

Hibiki-Zero se entrena en 2 etapas principales:

Entrenamiento de alineación aproximada: el modelo primero se entrena con datos alineados a nivel de oración. Estos datos garantizan que la iésima oración del destino sea una traducción de la iésima oración del origen. El equipo de investigación utiliza una técnica para insertar silencio artificial en el discurso de destino para retrasar su contenido en relación con la fuente. Aprendizaje por refuerzo (RL): el modelo utiliza la optimización de políticas relativas al grupo (GRPO) para refinar su política. Esta etapa reduce la latencia de la traducción y preserva la calidad.

El proceso de RL utiliza recompensas de proceso basadas únicamente en la puntuación BLEU. Calcula recompensas intermedias en múltiples puntos durante la traducción. Un hiperparámetro ⍺ equilibra el equilibrio entre velocidad y precisión. Un ⍺ más bajo reduce la latencia pero puede disminuir ligeramente la calidad.

Escalando al italiano en un tiempo récord

Los investigadores demostraron con qué facilidad Hibiki-Zero se adapta a nuevos idiomas. Agregaron el italiano como idioma de entrada utilizando menos de 1000 horas de datos de voz.

Realizaron ajustes supervisados ​​seguidos del proceso GRPO. El modelo alcanzó un equilibrio entre calidad y latencia similar al modelo Seamless de Meta. Superó a Seamless en similitud de hablantes por más de 30 puntos.

Desempeño y Resultados

Hibiki-Zero logra resultados de última generación en 5 tareas de X-to-English. Fue probado en el punto de referencia de formato largo Audio-NTREX-4L, que incluye 15 horas de voz por sistema TTS.

MetricHibiki-Zero (francés)Seamless (francés)ASR-BLEU ( ↑ ) 28,7 23,9 Similitud del hablante ( ↑ ) 61,3 44,4 Retraso promedio (LAAL) (↓) 2,3 6,2

En tareas de formato corto (Europarl-ST), Hibiki-Zero alcanzó un ASR-BLEU de 34,6 con un retraso de 2,8 segundos. Los evaluadores humanos también puntuaron el modelo significativamente más alto que los puntos de referencia en cuanto a naturalidad del habla y transferencia de voz.

https://kyutai.org/blog/2026-02-12-hibiki-zero

Conclusiones clave

Requisito de datos alineados cero: Hibiki-Zero elimina la necesidad de alineaciones costosas y hechas a mano a nivel de palabras entre el habla de origen y de destino, que anteriormente eran el mayor cuello de botella en la ampliación de la traducción simultánea a nuevos idiomas. Optimización de latencia impulsada por GRPO: el modelo utiliza optimización de políticas relativas al grupo (GRPO) y un sistema de recompensa simple basado únicamente en puntuaciones BLEU para aprender automáticamente una política de traducción eficiente, equilibrando una alta calidad de traducción con una baja latencia. Estrategia de capacitación de grueso a fino: el proceso de capacitación comienza con datos alineados a nivel de oración para enseñar la traducción base del modelo con alta latencia, seguido de una fase de aprendizaje de refuerzo que “enseña” al modelo cuándo hablar y cuándo escuchar. Voz y naturalidad superiores: en la evaluación comparativa con sistemas de última generación anteriores como Seamless, Hibiki-Zero logró una ventaja de 30 puntos en similitud de hablantes y puntuaciones significativamente más altas en naturalidad del habla y calidad de audio en cinco tareas de lenguaje. Adaptación rápida a nuevos idiomas: la arquitectura es muy portátil; Los investigadores demostraron que Hibiki-Zero podría adaptarse a un nuevo idioma de entrada (italiano) con menos de 1000 horas de datos de voz manteniendo su rendimiento original en otros idiomas.

Consulte el documento, los detalles técnicos, el repositorio y las muestras. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.