La tensión fundamental en la IA conversacional siempre ha sido una elección binaria: responder rápido o responder inteligentemente. Los modelos de voz a voz en tiempo real (S2S), del tipo que impulsan a los asistentes de voz con sensación natural, comienzan a hablar casi instantáneamente, pero sus respuestas tienden a ser superficiales. Los sistemas en cascada que dirigen el habla a través de un modelo de lenguaje grande (LLM, por sus siglas en inglés) tienen mucho más conocimiento, pero el retraso en el proceso es lo suficientemente largo como para hacer que la conversación parezca forzada y robótica. Los investigadores de Sakana AI, el laboratorio de IA con sede en Tokio, presentan KAME (Extensión del modelo de acceso al conocimiento), una arquitectura híbrida que mantiene la latencia de respuesta cercana a cero de un sistema S2S directo al tiempo que inyecta el conocimiento más rico de un LLM back-end en tiempo real.
El problema: dos paradigmas, dos compensaciones
Para comprender por qué KAME es importante, es útil comprender los dos diseños dominantes que une.
Un modelo S2S directo como Moshi (desarrollado por KyutAI) es un transformador monolítico que recibe tokens de audio y produce tokens de audio en un bucle continuo. Debido a que no necesita sincronizarse con sistemas externos, su latencia de respuesta es excepcionalmente baja: para muchas consultas, el modelo comienza a hablar incluso antes de que el usuario termine su pregunta. Pero debido a que las señales acústicas son mucho más densas en información que el texto, el modelo tiene que gastar una capacidad significativa en modelar características paralingüísticas como el tono, la emoción y el ritmo. Eso deja menos espacio para el conocimiento fáctico y el razonamiento profundo.
Por el contrario, un sistema en cascada enruta el habla del usuario a través de un modelo de reconocimiento automático de voz (ASR), introduce el texto resultante en un potente LLM y luego convierte la respuesta del LLM nuevamente en voz a través de un motor de texto a voz (TTS). La calidad del conocimiento es excelente (puede conectar cualquier LLM de frontera), pero el sistema debe esperar a que el usuario termine de hablar antes de que el procesamiento de ASR y LLM pueda siquiera comenzar. El resultado es una latencia media de alrededor de 2,1 segundos, tiempo suficiente para interrumpir notablemente el flujo conversacional natural.
La arquitectura de KAME: hablar mientras se piensa
KAME funciona como un sistema tándem con dos componentes asíncronos funcionando en paralelo.
El módulo front-end S2S se basa en la arquitectura Moshi y procesa audio en tiempo real en el ciclo de tokens de audio discretos (aproximadamente cada 80 milisegundos). Comienza a generar una respuesta hablada de inmediato. Internamente, el diseño original de tres flujos de Moshi (audio de entrada, monólogo interno (texto) y audio de salida) se amplía en KAME con un cuarto flujo: el flujo de oráculo. Este es el punto clave de la innovación.
El módulo LLM back-end consta de un componente de transmisión de voz a texto (STT) emparejado con un LLM a gran escala. A medida que el usuario habla, el componente STT genera continuamente una transcripción parcial y la envía periódicamente al LLM de back-end. Para cada transcripción parcial que recibe, el LLM genera una respuesta de texto candidata, llamada oráculo, y la transmite al front-end. Debido a que el discurso del usuario aún está llegando, estos oráculos comienzan como conjeturas fundamentadas y se vuelven progresivamente más precisos a medida que la transcripción se vuelve más completa.
Luego, el transformador S2S frontal condiciona su salida de voz en curso tanto en su propio contexto interno como en estos tokens de Oracle entrantes. Cuando llega un oráculo nuevo y mejor, el modelo puede corregir el rumbo, actualizando efectivamente su respuesta a mitad de frase, como lo haría un humano. Debido a que ambos módulos se ejecutan de forma asincrónica e independiente, la latencia de respuesta inicial se mantiene cercana a cero.
Entrenamiento sobre Oráculos Simulados
Un desafío es que ningún conjunto de datos natural contiene señales de oráculo. El equipo de investigación de Sakana AI aborda esto con una técnica llamada Simulated Oracle Augmentation. Utilizando un LLM ‘simulador’ y un conjunto de datos conversacionales estándar (enunciación del usuario + respuesta de verdad), el equipo de investigación genera secuencias de oráculos sintéticas que imitan lo que produciría un LLM en tiempo real en diferentes niveles de integridad de la transcripción. Definen seis niveles de pistas (0 a 5), que van desde una suposición completamente no guiada en el nivel de pista 0 hasta la respuesta palabra por palabra de verdad fundamental en el nivel de pista 5. Los datos de entrenamiento para KAME se construyeron a partir de 56,582 diálogos sintéticos extraídos de MMLU-Pro, GSM8K y HSSBench, convertidos a audio a través de TTS y aumentados con estas secuencias progresivas de oráculos.
Resultados: calidad casi en cascada, latencia casi nula
Las evaluaciones de un subconjunto sintetizado por voz del punto de referencia de preguntas y respuestas de múltiples turnos de MT-Bench, específicamente las categorías de razonamiento, STEM y humanidades (codificación, extracción, matemáticas, juego de roles y escritura se excluyeron por no ser adecuadas para la interacción del habla), muestran una mejora espectacular. Solo Moshi obtiene una puntuación media de 2,05. KAME con gpt-4.1 como back-end obtiene una puntuación de 6,43, y KAME con claude-opus-4-1 como back-end obtiene una puntuación de 6,23, ambos con esencialmente la misma latencia que Moshi. El sistema en cascada líder, Unmute (también respaldado por gpt-4.1), obtiene una puntuación de 7,70, pero con una latencia media de 2,1 segundos frente a casi cero para KAME.
Para aislar la capacidad de back-end de los efectos de tiempo, el equipo de investigación también evaluó directamente las respuestas de texto del LLM de back-end de la inyección final de Oracle en cada sesión de KAME, evitando por completo el problema de la generación prematura. Esas puntuaciones promediaron 7,79 (razonamiento 6,48, STEM 8,34, humanidades 8,56), comparable al 7,70 de Unmute. Esto confirma que la brecha de KAME con los sistemas en cascada no es un límite en el conocimiento del LLM de back-end, sino una consecuencia de comenzar a hablar antes de que se haya escuchado la consulta completa del usuario.
Fundamentalmente, KAME es totalmente independiente del back-end. El front-end se entrenó usando gpt-4.1-nano como back-end principal, pero el intercambio en claude-opus-4-1 o gemini-2.5-flash en el momento de la inferencia no requiere reentrenamiento. En los experimentos de Sakana AI, claude-opus-4-1 tendió a superar a gpt-4.1 en tareas de razonamiento, mientras que gpt-4.1 obtuvo una puntuación más alta en preguntas de humanidades, lo que sugiere que los profesionales pueden dirigir las consultas al LLM más apropiado para la tarea sin tocar el modelo de interfaz.
Conclusiones clave
KAME une el equilibrio entre velocidad y conocimiento en la IA conversacional al ejecutar un modelo de voz a voz de front-end y un LLM de back-end de forma asincrónica en paralelo: el modelo S2S responde inmediatamente mientras que el LLM inyecta continuamente señales de “oráculo” progresivamente refinadas en tiempo real, cambiando el paradigma de “pensar, luego hablar” a “hablar mientras se piensa”. Las ganancias de rendimiento son sustanciales sin ningún costo de latencia: KAME eleva la puntuación MT-Bench de 2,05 (base de Moshi) a 6,43, acercándose al 7,70 del sistema en cascada Unmute, mientras mantiene una latencia de respuesta media cercana a cero frente a los 2,1 segundos de Unmute. La arquitectura es totalmente independiente del back-end: el front-end se entrenó usando gpt-4.1-nano pero admite el intercambio plug-and-play de cualquier LLM de frontera (gpt-4.1, claude-opus-4-1, gemini-2.5-flash) en el momento de la inferencia sin reentrenamiento, lo que permite la selección de LLM para tareas específicas en función de las fortalezas del dominio.
Consulte los pesos del modelo, el papel, el código de inferencia y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros