El equipo de investigación de IA de Google ha aportado un cambio de producción en la búsqueda por voz al introducir Speech-to-Retrieval (S2R). S2R asigna una consulta hablada directamente a una incrustación y recupera información sin convertir primero la voz en texto. El equipo de Google posiciona a S2R como un cambio arquitectónico y filosófico que apunta a la propagación de errores en el enfoque clásico de modelado en cascada y enfoca el sistema en la intención de recuperación en lugar de la fidelidad de la transcripción. El equipo de investigación de Google afirma que la búsqueda por voz ahora funciona con S2R.
Del modelado en cascada a la recuperación alineada con la intención
En el enfoque tradicional de modelado en cascada, el reconocimiento automático de voz (ASR) primero produce una única cadena de texto, que luego se pasa a la recuperación. Pequeños errores de transcripción pueden cambiar el significado de la consulta y generar resultados incorrectos. S2R replantea el problema en torno a la pregunta “¿Qué información se busca?” y evita la frágil transcripción intermedia.
Evaluación del potencial de S2R
El equipo de investigación de Google analizó la desconexión entre la tasa de error de palabras (WER) (calidad ASR) y el rango recíproco medio (MRR) (calidad de recuperación). Utilizando transcripciones verificadas por humanos para simular una condición de “ASR perfecto” de verdad fundamental en cascada, el equipo comparó (i) ASR en cascada (línea de base del mundo real) con (ii) verdad fundamental en cascada (límite superior) y observó que un WER más bajo no predice de manera confiable un MRR más alto en todos los idiomas. La brecha persistente de MRR entre la línea de base y la verdad fundamental indica espacio para modelos que optimicen la intención de recuperación directamente del audio.
Arquitectura: codificador dual con entrenamiento conjunto
El núcleo de S2R es una arquitectura de codificador dual. Un codificador de audio convierte la consulta hablada en una rica incrustación de audio que captura el significado semántico, mientras que un codificador de documentos genera una representación vectorial correspondiente para los documentos. El sistema se entrena con datos emparejados (consulta de audio, documento relevante) de modo que el vector para una consulta de audio esté geométricamente cerca de los vectores de sus documentos correspondientes en el espacio de representación. Este objetivo de entrenamiento alinea directamente el habla con los objetivos de recuperación y elimina la frágil dependencia de secuencias exactas de palabras.
Ruta de publicación: transmisión de audio, búsqueda de similitudes y clasificación
En el momento de la inferencia, el audio se transmite al codificador de audio previamente entrenado para producir un vector de consulta. Este vector se utiliza para identificar de manera eficiente un conjunto de resultados candidatos altamente relevantes del índice de Google; el sistema de clasificación de búsqueda, que integra cientos de señales, calcula el orden final. La implementación preserva la pila de clasificación madura al tiempo que reemplaza la representación de la consulta con una incrustación semántica del habla.
Evaluación de S2R en SVQ
En la evaluación de Preguntas de voz simples (SVQ), la publicación presenta una comparación de tres sistemas: Cascade ASR (azul), Cascade Groundtruth (verde) y S2R (naranja). La barra S2R supera significativamente la línea base de Cascade ASR y se acerca al límite superior establecido por Cascade Groundtruth en MRR, con una brecha restante que los autores señalan como margen de investigación futura.
Recursos abiertos: SVQ y Massive Sound Embedding Benchmark (MSEB)
Para respaldar el progreso de la comunidad, Google abrió Preguntas de voz simples (SVQ) en Hugging Face: preguntas breves de audio grabadas en 26 idiomas en 17 idiomas y en múltiples condiciones de audio (limpio, ruido de fondo, ruido del tráfico, ruido de los medios). El conjunto de datos se publica como un conjunto de evaluación indiviso y tiene licencia CC-BY-4.0. SVQ es parte de Massive Sound Embedding Benchmark (MSEB), un marco abierto para evaluar métodos de integración de sonido en todas las tareas.
Conclusiones clave
Google ha trasladado la búsqueda por voz a la función de recuperación de voz (S2R), asignando consultas habladas a incrustaciones y omitiendo la transcripción. El diseño de codificador dual (codificador de audio + codificador de documentos) alinea los vectores de audio/consulta con incrustaciones de documentos para una recuperación semántica directa. En las evaluaciones, S2R supera la producción de ASR → cascada de recuperación y se acerca al límite superior de la transcripción de verdad sobre el terreno en MRR. S2R está en producción y sirve en varios idiomas, integrado con la pila de clasificación existente de Google. Google lanzó Preguntas de voz simples (SVQ) (17 idiomas, 26 configuraciones regionales) bajo MSEB para estandarizar la evaluación comparativa de recuperación de voz.
Speech-to-Retrieval (S2R) es una corrección arquitectónica significativa en lugar de una actualización cosmética: al reemplazar la bisagra de texto ASR→con una interfaz de incrustación de voz nativa, Google alinea el objetivo de optimización con la calidad de recuperación y elimina una fuente importante de error en cascada. El lanzamiento de la producción y la cobertura multilingüe son importantes, pero el interesante trabajo ahora está operativo: calibrar puntuaciones de relevancia derivadas del audio, realizar pruebas de estrés en el cambio de código y las condiciones ruidosas, y cuantificar las compensaciones en materia de privacidad a medida que las incrustaciones de voz se convierten en claves de consulta.
Consulta los detalles técnicos aquí. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Max es un analista de inteligencia artificial en MarkTechPost, con sede en Silicon Valley, que da forma activamente al futuro de la tecnología. Enseña robótica en Brainvyne, combate el spam con ComplyEmail y aprovecha la IA a diario para traducir avances tecnológicos complejos en conocimientos claros y comprensibles.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.