Gradium lanzó hoy dos modelos de traducción de voz en tiempo real: stt-translate y s2s-translate. Ambos funcionan en cinco idiomas y transmiten los resultados en vivo en el navegador.
Gradium afirma tener una mejor compensación entre precisión y latencia que gpt-realtime-translate y gemini-3.5-live-translate. También agrega control de voz de salida, incluida la clonación, de la que carece gpt-realtime-translate.
TL;DR
Gradium lanzó dos modelos de traducción de voz en tiempo real: stt-translate (voz → texto) y s2s-translate (voz → voz). Cubren cinco idiomas (EN, FR, DE, ES, PT) y 20 pares, colapsando la cascada habitual de 3 modelos en 2. La precisión supera a gemini-3.5-live-translate en BLEU y MetricX, y supera a gpt-realtime-translate en BLEU (comparable en MetricX). La latencia promedia 3,0 s, por delante de gpt-realtime-translate (3,6 s), justo detrás de gemini-3,5-live-translate (2,9 s). A diferencia de gpt-realtime-translate, usted elige la voz de salida o clona la suya propia, todo en un WebSocket dúplex.
tt-traducir
stt-translate toma voz en un idioma y devuelve texto en otro. Admite inglés (EN), francés (FR), alemán (DE), español (ES) y portugués (PT).
Cualquier origen se asigna a cualquier destino en ese conjunto. Son 20 pares de idiomas en total, en todas direcciones.
La elección de diseño clave es fusionar dos pasos en uno. La transcripción y traducción se realizan en una sola pasada, dentro del modelo de voz. No hay una transcripción intermedia que esperar ni transferencia entre sistemas.
Según Gradium: el enfoque se basa en el marco Hibiki-Zero. El modelo optimiza la baja latencia y la alta precisión conjuntamente mediante el aprendizaje por refuerzo. Esto significa menos piezas móviles en la tubería.
s2s-traducir
s2s-translate convierte el audio hablado en un idioma en audio hablado en otro, de principio a fin. Se basa en stt-translate y lo combina con un modelo Gradium TTS en un solo servicio.
Transmite audio a través de un WebSocket. Recibirá tanto el audio de salida sintetizado como la transcripción traducida a medida que se producen.
Eso elimina el trabajo de integración. Usted no cablea STT y TTS juntos ni administra dos conexiones. El servidor ejecuta la canalización y transmite los resultados.
El audio de entrada es PCM a 24 kHz, mono con signo de 16 bits. El audio de salida es PCM a 48 kHz, mono con signo de 16 bits. También se admiten WAV, Opus, mu-law y A-law.
Cómo mide Gradium la calidad: BLEU y MetricX
La calidad de la traducción no es un número, por lo que Gradium reporta dos métricas complementarias:
BLEU (Suplente de Evaluación Bilingüe) es el estándar de traducción automática de larga data (Papineni et al.). Mide la superposición de n-gramas entre la salida del modelo y las traducciones de referencia humana. Va de 0 a 100, donde cuanto más alto, mejor.
BLEU es rápido, reproducible y comparable entre sistemas. Su límite es que recompensa la coincidencia superficial de palabras. Una traducción correcta utilizando una redacción diferente puede ser penalizada.
MetricX es una métrica de calidad neuronal aprendida desarrollada por Google (Juraska et al.). Predice cómo un humano calificaría una traducción. Es una puntuación de error, por lo que cuanto más bajo, mejor, y sigue el juicio humano más de cerca que BLEU.
Los dos detectan diferentes fracasos. BLEU comprueba la fidelidad léxica; MetricX comprueba la adecuación semántica.
Punto de referencia
Puntos de referencia de Gradium en un conjunto de datos patentado de habla conversacional. Los datos reflejan temas cotidianos como el trabajo, los viajes y el clima, en lugar de texto escrito.
Contra gemini-3.5-live-translate, Gradium lidera tanto en BLEU como en MetricX. Contra gpt-realtime-translate, Gradium lidera en BLEU y es comparable en MetricX.
La precisión (BLEU y MetricX) se mide en la traducción de stt-translate; La latencia es para todo el proceso de traducción s2s. Léalo como una compensación, no como un barrido limpio. Géminis es un poco más rápido; Gradium es más preciso y agrega control por voz.
Por qué dos modelos vencen a tres
La pila estándar de voz a voz utiliza tres modelos: voz a texto, luego traducción de texto a texto y luego texto a voz. Cada etapa es una llamada de inferencia separada. Cada uno agrega tiempo de procesamiento y una transferencia.
Gradium usa dos. stt-translate realiza la transcripción y traducción en una sola pasada. La etapa dedicada Text-To-Text desaparece por completo.
Esto elimina un modelo completo de la ruta crítica, junto con su latencia y transferencia. El camino de un extremo a otro es más corto que una cascada de tres modelos con calidad equivalente.
Los números respaldan el diseño. s2s-translate tiene un promedio de 3,0 en todos los pares de idiomas. Eso supera a gpt-realtime-translate en 3,6 segundos y se ubica cerca de gemini-3.5-live-translate en 2,9 segundos.
Casos de uso con ejemplos
Doblaje y localización en vivo: clona la voz de un presentador una vez. Traduce una conferencia magistral del francés al español que aún suene como el orador original. Agentes de voz multilingües: enrute una llamada de soporte a través de s2s-translate. Un agente inglés escucha a una persona alemana que llama en inglés y responde en alemán. Reuniones en tiempo real: canalice el audio del micrófono a través del WebSocket. Cada participante recibe un discurso traducido y una transcripción en su propio idioma. Accesibilidad y subtítulos: use stt-translate solo cuando solo necesite texto. Renderice subtítulos traducidos en vivo sin generar audio.
Traducir en unas pocas líneas de código
El SDK de Python transmite audio a través del punto final Speech-To-Speech y devuelve audio traducido más una transcripción.
async con grc.s2s_realtime(wait_for_ready_on_start=True, **setup) como s2s: async def send_loop(): for i in range(0, len(pcm), 1920): # 1920 bytes = 40 ms a 24 kHz en espera de s2s.send_audio(pcm[i : i + 1920]) await s2s.send_eos() # señal de fin de entrada async def recv_loop(): async para msg en s2s: if msg[“type”] == “audio”: salida_audio.append(msj[“audio”]) # voz traducida (bytes) mensaje elif[“type”] == “texto”: imprimir(mensaje[“text”]end=” “, flush=True) # mensaje elif de transcripción traducida[“type”] == “end_of_stream”: romper asíncrono con asyncio.TaskGroup() como tg: tg.create_task(send_loop()) tg.create_task(recv_loop()) return np.frombuffer(b””.join(audio_out), dtype=np.int16) # PCM mono de 48 kHz traducido_pcm = asyncio.run(main())
El SDK expone tres formas de impulsar S2S. Utilice s2s_realtime para fuentes en vivo, s2s_stream para iterables finitos y s2s para archivos almacenados en buffer. Los tres hablan con wss://api.gradium.ai/api/speech/s2s.
Fortalezas y debilidades
Fortalezas
Stt-translate de un solo paso elimina un modelo de la ruta de latencia Conduce gemini-3.5-live-translate tanto en BLEU como en MetricX Elección y clonación de voz de salida, de la que carece gpt-realtime-translate Un WebSocket dúplex reemplaza una canalización STT-plus-TTS cableada a mano
Debilidades
Cinco idiomas en el lanzamiento, con 20 pares solo en ese conjunto gemini-3.5-live-translate tiene una latencia fraccionalmente menor a 2,9 s. MetricX solo es comparable, no superior, a gpt-realtime-translate. Los puntos de referencia utilizan un conjunto de datos patentado, por lo que la replicación externa es limitada.