Gradium lanza stt-translate y s2s-translate, modelos de traducción de voz en tiempo real que superan a gpt-realtime-translate en precisión y latencia

Gradium lanzó hoy dos modelos de traducción de voz en tiempo real: stt-translate y s2s-translate. Ambos funcionan en cinco idiomas y transmiten los resultados en vivo en el navegador.

Gradium afirma tener una mejor compensación entre precisión y latencia que gpt-realtime-translate y gemini-3.5-live-translate. También agrega control de voz de salida, incluida la clonación, de la que carece gpt-realtime-translate.

TL;DR

Gradium lanzó dos modelos de traducción de voz en tiempo real: stt-translate (voz → texto) y s2s-translate (voz → voz). Cubren cinco idiomas (EN, FR, DE, ES, PT) y 20 pares, colapsando la cascada habitual de 3 modelos en 2. La precisión supera a gemini-3.5-live-translate en BLEU y MetricX, y supera a gpt-realtime-translate en BLEU (comparable en MetricX). La latencia promedia 3,0 s, por delante de gpt-realtime-translate (3,6 s), justo detrás de gemini-3,5-live-translate (2,9 s). A diferencia de gpt-realtime-translate, usted elige la voz de salida o clona la suya propia, todo en un WebSocket dúplex.

tt-traducir

stt-translate toma voz en un idioma y devuelve texto en otro. Admite inglés (EN), francés (FR), alemán (DE), español (ES) y portugués (PT).

Cualquier origen se asigna a cualquier destino en ese conjunto. Son 20 pares de idiomas en total, en todas direcciones.

La elección de diseño clave es fusionar dos pasos en uno. La transcripción y traducción se realizan en una sola pasada, dentro del modelo de voz. No hay una transcripción intermedia que esperar ni transferencia entre sistemas.

Según Gradium: el enfoque se basa en el marco Hibiki-Zero. El modelo optimiza la baja latencia y la alta precisión conjuntamente mediante el aprendizaje por refuerzo. Esto significa menos piezas móviles en la tubería.

s2s-traducir

s2s-translate convierte el audio hablado en un idioma en audio hablado en otro, de principio a fin. Se basa en stt-translate y lo combina con un modelo Gradium TTS en un solo servicio.

Transmite audio a través de un WebSocket. Recibirá tanto el audio de salida sintetizado como la transcripción traducida a medida que se producen.

Eso elimina el trabajo de integración. Usted no cablea STT y TTS juntos ni administra dos conexiones. El servidor ejecuta la canalización y transmite los resultados.

El audio de entrada es PCM a 24 kHz, mono con signo de 16 bits. El audio de salida es PCM a 48 kHz, mono con signo de 16 bits. También se admiten WAV, Opus, mu-law y A-law.

Cómo mide Gradium la calidad: BLEU y MetricX

La calidad de la traducción no es un número, por lo que Gradium reporta dos métricas complementarias:

BLEU (Suplente de Evaluación Bilingüe) es el estándar de traducción automática de larga data (Papineni et al.). Mide la superposición de n-gramas entre la salida del modelo y las traducciones de referencia humana. Va de 0 a 100, donde cuanto más alto, mejor.

BLEU es rápido, reproducible y comparable entre sistemas. Su límite es que recompensa la coincidencia superficial de palabras. Una traducción correcta utilizando una redacción diferente puede ser penalizada.

MetricX es una métrica de calidad neuronal aprendida desarrollada por Google (Juraska et al.). Predice cómo un humano calificaría una traducción. Es una puntuación de error, por lo que cuanto más bajo, mejor, y sigue el juicio humano más de cerca que BLEU.

Los dos detectan diferentes fracasos. BLEU comprueba la fidelidad léxica; MetricX comprueba la adecuación semántica.

Punto de referencia

Puntos de referencia de Gradium en un conjunto de datos patentado de habla conversacional. Los datos reflejan temas cotidianos como el trabajo, los viajes y el clima, en lugar de texto escrito.

Contra gemini-3.5-live-translate, Gradium lidera tanto en BLEU como en MetricX. Contra gpt-realtime-translate, Gradium lidera en BLEU y es comparable en MetricX.

CapacidadGradiumgpt-realtime-translategemini-3.5-live-translateLatencia promedio (todos los pares)3.0s3.6s2.9sBLEU (cuanto más alto, mejor)Lleva a ambosInferior a GradiumInferior a GradiumMetricX (menor error es mejor)Comparable a GPT; lidera GéminisComparable con GradiumMayor error que GradiumElegir voz de salidaSí (catálogo)NoNo indicadoClonar tu propia vozSíNoNo indicadoIdiomas5 idiomas, 20 paresNo declaradoNo declarado

La precisión (BLEU y MetricX) se mide en la traducción de stt-translate; La latencia es para todo el proceso de traducción s2s. Léalo como una compensación, no como un barrido limpio. Géminis es un poco más rápido; Gradium es más preciso y agrega control por voz.

Por qué dos modelos vencen a tres

La pila estándar de voz a voz utiliza tres modelos: voz a texto, luego traducción de texto a texto y luego texto a voz. Cada etapa es una llamada de inferencia separada. Cada uno agrega tiempo de procesamiento y una transferencia.

Gradium usa dos. stt-translate realiza la transcripción y traducción en una sola pasada. La etapa dedicada Text-To-Text desaparece por completo.

Esto elimina un modelo completo de la ruta crítica, junto con su latencia y transferencia. El camino de un extremo a otro es más corto que una cascada de tres modelos con calidad equivalente.

Los números respaldan el diseño. s2s-translate tiene un promedio de 3,0 en todos los pares de idiomas. Eso supera a gpt-realtime-translate en 3,6 segundos y se ubica cerca de gemini-3.5-live-translate en 2,9 segundos.

Casos de uso con ejemplos

Doblaje y localización en vivo: clona la voz de un presentador una vez. Traduce una conferencia magistral del francés al español que aún suene como el orador original. Agentes de voz multilingües: enrute una llamada de soporte a través de s2s-translate. Un agente inglés escucha a una persona alemana que llama en inglés y responde en alemán. Reuniones en tiempo real: canalice el audio del micrófono a través del WebSocket. Cada participante recibe un discurso traducido y una transcripción en su propio idioma. Accesibilidad y subtítulos: use stt-translate solo cuando solo necesite texto. Renderice subtítulos traducidos en vivo sin generar audio.

Traducir en unas pocas líneas de código

El SDK de Python transmite audio a través del punto final Speech-To-Speech y devuelve audio traducido más una transcripción.

importar asyncio importar numpy como np desde gradium importar cliente como gradium_client grc = gradium_client.GradiumClient() # lee GRADIUM_API_KEY desde la configuración del entorno = { “model_name”: “s2s-translate”, “input_format”: “pcm_24000”, # 24 kHz, entrada mono con signo de 16 bits “output_format”: “pcm_48000”, # Salida mono con signo de 48 kHz y 16 bits “voice_id”: “cLONiZ4hQ8VpQ4Sz”, # debe ser una voz en el idioma de destino “stt_model_name”: “stt-translate”, “tts_model_name”: “default”, “target_language”: “en”, } # Bytes PCM mono sin formato de 24 kHz y 16 bits (de un archivo, búfer o micrófono). con open(“input_24k_mono.pcm”, “rb”) como f: pcm = f.read() async def main() -> np.ndarray: audio_out: list[bytes] = []
async con grc.s2s_realtime(wait_for_ready_on_start=True, **setup) como s2s: async def send_loop(): for i in range(0, len(pcm), 1920): # 1920 bytes = 40 ms a 24 kHz en espera de s2s.send_audio(pcm[i : i + 1920]) await s2s.send_eos() # señal de fin de entrada async def recv_loop(): async para msg en s2s: if msg[“type”] == “audio”: salida_audio.append(msj[“audio”]) # voz traducida (bytes) mensaje elif[“type”] == “texto”: imprimir(mensaje[“text”]end=” “, flush=True) # mensaje elif de transcripción traducida[“type”] == “end_of_stream”: romper asíncrono con asyncio.TaskGroup() como tg: tg.create_task(send_loop()) tg.create_task(recv_loop()) return np.frombuffer(b””.join(audio_out), dtype=np.int16) # PCM mono de 48 kHz traducido_pcm = asyncio.run(main())

El SDK expone tres formas de impulsar S2S. Utilice s2s_realtime para fuentes en vivo, s2s_stream para iterables finitos y s2s para archivos almacenados en buffer. Los tres hablan con wss://api.gradium.ai/api/speech/s2s.

Fortalezas y debilidades

Fortalezas

Stt-translate de un solo paso elimina un modelo de la ruta de latencia Conduce gemini-3.5-live-translate tanto en BLEU como en MetricX Elección y clonación de voz de salida, de la que carece gpt-realtime-translate Un WebSocket dúplex reemplaza una canalización STT-plus-TTS cableada a mano

Debilidades

Cinco idiomas en el lanzamiento, con 20 pares solo en ese conjunto gemini-3.5-live-translate tiene una latencia fraccionalmente menor a 2,9 s. MetricX solo es comparable, no superior, a gpt-realtime-translate. Los puntos de referencia utilizan un conjunto de datos patentado, por lo que la replicación externa es limitada.

Explicador interactivo

out.length){ clearInterval(temporizador); box.textContent=fuera; setBars(verdadero); hablar(fuera,bcp); $(‘#gtx-runnote’).textContent=”Latencia promedio de extremo a extremo en todos los pares de idiomas (cuanto menor, mejor).”; corriendo = falso; $(‘#gtx-run’).disabled=false; } },26); }; función hablar(texto,bcp){ if(!window.speechSynthesis){return;} var u=new SpeechSynthesisUtterance(texto); u.lang=bcp; u.tasa=.96; var want=vSel.value, vs=speechSynthesis.getVoices(); var v=vs.filter(function(x){return x.name===quiero;})[0] ||vs.filter(function(x){return x.lang&&x.lang.toLowerCase().indexOf(bcp.split(‘-‘)[0])===0;})[0]; if(v) u.voz=v; discursoSynthesis.speak(u); } $(‘#gtx-clear’).onclick=function(){ $(‘#gtx-outtext’).innerHTML=”; establecerBarras(falso); if(window.speechSynthesis) discursoSynthesis.cancel(); }; /* —- pestañas —- */ root.querySelectorAll(‘.gtx-tab’).forEach(function(tb){ tb.onclick=function(){ root.querySelectorAll(‘.gtx-tab’).forEach(function(x){x.setAttribute(‘aria-selected’,’false’);}); tb.setAttribute(‘aria-selected’,’true’); root.querySelectorAll(‘.gtx-view’).forEach(function(v){v.classList.remove(‘gtx-on’);});[data-view=”‘+tb.dataset.v+'”]’).classList.add(‘gtx-on’); informe(); }; }); /* —- arquitectura —- */ var FLOWS={ grad:[[‘🎙’,’Input speech’,”],[‘stt-translate’,’transcribe + translate’,’acc’],[‘TTS’,’synthesize voice’,”]]cascada:[[‘🎙’,’Input speech’,”],[‘STT’,’transcribe’,”],[‘T2T’,’translate’,’drop’],[‘TTS’,’synthesize’,”]]}; función drawArch(k){ var flow=$(‘#gtx-flow’); flujo.innerHTML=”; FLUJOS[k].forEach(function(st,idx){ if(idx>0){var a=document.createElement(‘span’);a.className=”gtx-arrow”;a.textContent=”→”;flow.appendChild(a);} var d=document.createElement(‘div’); d.className=”gtx-stage”+(st[2]?’ ‘+st[2]:”); d.innerHTML=”+st[0]+’‘+st[1]+’‘; flujo.appendChild(d); }); $(‘#gtx-archnote’).textContent = k===’graduado’? ‘Dos modelos. stt-translate fusiona la transcripción y la traducción, eliminando la etapa separada de texto a texto y su transferencia.’ : ‘Tres modelos. Cada etapa es una llamada de inferencia separada con su propia latencia y una transferencia que espera la siguiente etapa.’; informe(); } root.querySelectorAll(‘.gtx-archtoggle button’).forEach(function(b){ b.onclick=function(){ root.querySelectorAll(‘.gtx-archtoggle button’).forEach(function(x){x.classList.remove(‘on’);}); b.classList.add(‘on’); drawArch(b.dataset.arch); }; }); drawArch(‘graduado’); /* —- informes de altura para iframe de WordPress (offsetHeight + 40, nunca scrollHeight) —- */ function report(){ var h=root.offsetHeight+40; parent.postMessage({tipo:’gtx-height’,altura:h},’*’); } ventana.addEventListener(‘cargar’,informe); setTimeout(informe,120); if(window.ResizeObserver){ nuevo ResizeObserver(informe).observe(raíz); } })();

Gradium lanza stt-translate y s2s-translate, modelos de traducción de voz en tiempo real que superan a gpt-realtime-translate en precisión y latencia

ByEquipo de 7 minutos

TL;DR

tt-traducir

s2s-traducir

Cómo mide Gradium la calidad: BLEU y MetricX

Punto de referencia

Por qué dos modelos vencen a tres

Casos de uso con ejemplos

Traducir en unas pocas líneas de código

Fortalezas y debilidades

Fortalezas

Debilidades

Explicador interactivo

By Equipo de 7 minutos

Related Post

Cómo construir una cuadrícula de calificación crediticia a partir de un modelo de regresión logística

Huntington Bank: redacción de datos confidenciales de más de 400 millones de documentos con AWS

Nous Research agrega /learn al sistema de habilidades del agente Hermes, capturando flujos de trabajo como comandos de barra sin escritura a mano SKILL.md

You missed

Perseverance encuentra compuestos orgánicos complejos en rocas extrañas de Marte: ScienceAlert

Advertencia de Nueva York para los líderes demócratas

Días después de entregar el pasaporte, la esposa del presidente español quiere recuperarlo para el verano « Euro Weekly News

Karen Derrico enfrenta cargos por amenazas contra su ex Deon Derrico