La traducción del habla en tiempo real presenta un desafío complejo, que requiere una integración perfecta del reconocimiento de voz, la traducción automática y la síntesis de texto a voz. Los enfoques en cascada tradicionales a menudo introducen errores compuestos, no conservan la identidad del altavoz y sufren un procesamiento lento, lo que los hace menos adecuados para aplicaciones en tiempo real como la interpretación en vivo. Además, los modelos de traducción simultánea existentes luchan para equilibrar la precisión y la latencia, confiando en mecanismos de inferencia complejos que son difíciles de escalar. Una barrera significativa sigue siendo la falta de conjuntos de datos de voz a gran escala y bien alineados, lo que limita la capacidad de entrenar modelos que pueden generar traducciones contextualmente precisas y naturales con un retraso mínimo.

Kyutai se ha desarrollado Hibikiun modelo de decodificador de 2.7 mil millones de parámetros diseñado para la traducción de voz a voz en tiempo real (S2ST) y de voz a texto (S2TT). Operando a Entramado de 12.5Hz con una tasa de bits de 2.2kbpsHibiki actualmente es compatible Traducción de francés a inglés y está diseñado para preservar las características de voz en la salida traducida. Una versión destilada, Hibiki-m (parámetros 1.7b), está optimizado para el rendimiento en tiempo real en los teléfonos inteligentes, lo que lo hace más accesible para la traducción en el dispositivo.

Enfoque técnico y beneficios

Hibiki’s arquitectura de solo decodificador habilita el procesamiento simultáneo del habla utilizando un modelo de lenguaje multistream que predice ambos Tokens de texto y audio. Emplea un Códec de audio neural (Mimi) comprimir el audio mientras mantiene la fidelidad, asegurando una generación de traducción eficiente. Un aspecto clave de su diseño es alineación contextualun método que aprovecha la perplejidad de un modelo de traducción de texto para determinar el momento óptimo para generar discurso, permitiendo que Hibiki ajustar los retrasos de la traducción dinámicamente mientras mantiene la coherencia. Además, Hibiki admite inferencia por lotesprocesando hasta 320 secuencias en paralelo en GPU H100haciéndolo viable para aplicaciones a gran escala. El modelo está entrenado en 7m horas de audio en inglés, 450k horas de francés y 40k horas de datos paralelos sintéticoscontribuyendo a su robustez a través de variados patrones de habla.

Rendimiento y evaluación

Hibiki ha demostrado un fuerte rendimiento en la calidad de la traducción y la fidelidad del altavoz. Logra un Puntaje asr-bleu de 30.5superando las líneas de base existentes, incluidos los modelos fuera de línea. Las evaluaciones humanas califican su naturalidad a 3.73/5acercándose al 4.12/5 Puntuación de intérpretes humanos profesionales. El modelo también funciona bien en Similitud del altavozcon un Puntuación de similitud de 0.52 en comparación con 0.43 para perfectas. En comparación con Sin costuras y espacios de transmisiónHibiki ofrece constantemente Mayor calidad de traducción y mejor transferencia de vozmientras mantiene un latencia competitiva. El destilado Hibiki-m La variante, aunque ligeramente menor en la similitud de los altavoces, sigue siendo efectiva para el uso en el dispositivo en tiempo real.

Conclusión

Hibiki proporciona un enfoque práctico para la traducción del habla en tiempo real, integrando Alineación contextual, compresión eficiente e inferencia en tiempo real mejorar la calidad de la traducción al tiempo que preserva las características del habla naturales. Ofreciendo un Lanzamiento de código abierto bajo una licencia permisiva de CC-byHibiki tiene el potencial de contribuir significativamente a los avances en la comunicación multilingüe.


Verificar el Papel, Modelos en la cara abrazada, Página de Github y Cuaderno de colab. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Únase a nuestra comunidad de aprendizaje automático en Twitter/incógnita


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Por automata