Cómo evaluar los agentes de voz en 2025: más allá del reconocimiento automático de voz (ASR) y la tasa de error de palabras (WER) para el éxito de la tarea, la barcaza y el ruido de la alucinación.

La optimización solo para el reconocimiento automático de voz (ASR) y la tasa de error de palabras (WER) es insuficiente para agentes de voz modernos e interactivos. La evaluación robusta debe medir el éxito de la tarea de extremo a extremo, el comportamiento y la latencia de inverso, y la alucinación bajo el ruido, la seguridad, la seguridad y la instrucción. VoiceBench ofrece un punto de referencia de interacción del habla multifacética a través del conocimiento general, el seguimiento de la instrucción, la seguridad y la robustez a las variaciones de altavoz/entorno/contenido, pero no cubre la finalización de tareas de barcos o dispositivos reales. Slue (y fase-2) objetivo de comprensión del lenguaje hablado (SLU); Sonda masiva y hablada de calidad multilingüe y hablada QA; Las pistas DSTC agregan robustez hablada, orientada a tareas. Combine estos con pruebas explícitas de barcazas/puntos finales, medición de exitos de tareas centrada en el usuario y protocolos controlados de estrés de ruido para obtener una imagen completa.

¿Por qué no fue suficiente?

Wer mide la fidelidad de la transcripción, no la calidad de la interacción. Dos agentes con WER similar pueden divergir ampliamente en el éxito del diálogo porque la latencia, la toma de turnos, la recuperación malentendida, la seguridad y la robustez a las perturbaciones acústicas y de contenido dominan la experiencia del usuario. El trabajo previo en sistemas reales muestra la necesidad de evaluar la satisfacción del usuario y el éxito de la tarea directamente: la evaluación automática de Cortana en línea predijo la satisfacción del usuario de las señales de interacción in situ, no solo la precisión de ASR.

¿Qué medir (y cómo)?

1) éxito de tareas de extremo a extremo

Métrica: Tasa de éxito de la tarea (TSR) con estrictos criterios de éxito por tarea (finalización de objetivos, restricciones cumplidas), más el tiempo de finalización de la tarea (TCT) y se convierte en éxito.
Por qué. Los asistentes reales son juzgados por los resultados. Competiciones como Alexa Prizal Bot Bot midieron explícitamente la capacidad de los usuarios para terminar tareas de varios pasos (por ejemplo, cocción, bricolaje) con calificaciones y finalización.

Protocolo.

Defina las tareas con puntos finales verificables (por ejemplo, “ensamble la lista de compras con n elementos y restricciones”). Use evaluadores humanos cegados y registros automáticos para calcular TSR/TCT/Turns. Para la cobertura multilingüe/SLU, dibuje intentos/ranuras de tareas de masivo.

2) Barcaza y toma de turnos

Métrica:

Latencia de detección de barcazas (MS): tiempo desde el inicio del usuario hasta la supresión de TTS. Tasas de barcazas verdaderas/falsas: interrupciones correctas versus paradas espurias. Latencia de punto final (MS): tiempo para finalizar ASR después de la parada del usuario.

Por qué. Manejo de interrupción suave y puntos finales rápidos determinar la capacidad de respuesta percibida. La investigación formaliza la verificación de la barcaza y el procesamiento continuo de barcazas; La latencia de punto final sigue siendo un área activa en la transmisión ASR.

Protocolo.

El script solicita donde el usuario interrumpe los TTS en compensaciones controladas y SNR. Mida la supresión y los horarios de reconocimiento con registros de alta precisión (marcas de tiempo). Incluya condiciones de campo lejano ruidoso/ecoico. Los estudios clásicos y modernos proporcionan estrategias de recuperación y señalización que reducen las falsas barcazas.

3) Alucinación bajo ruido (HUN)

Métrico. Tasa de HUN: fracción de salidas que son fluidas pero semánticamente no relacionadas con el audio, bajo audio controlado de ruido o no discal.
Por qué. Las pilas ASR y AUDIO-LLM pueden emitir “tonterías convincentes”, especialmente con segmentos sin voz o superposiciones de ruido. El trabajo reciente define y mide las alucinaciones ASR; Los estudios dirigidos muestran alucinaciones de susurro inducidas por sonidos sin voz.

Protocolo.

Construya conjuntos de audio con ruido ambiental aditivo (SNR variados), distractores sin voz y disfluencias de contenido. Puntaje de relación semántica (juicio humano con adjudicación) y calcula hun. Seguimiento de si las acciones de agente aguas abajo propagan alucinaciones a pasos de tareas incorrectos.

4) Instrucción seguida, seguridad y robustez

Familias métricas.

Precisión de seguimiento de instrucciones (formato y adherencia de restricción). Tasa de rechazo de seguridad en indicaciones de voz adversaria. Deltas de robustez a través de la edad/acento/tono del altavoz, entorno (ruido, reverberación, campo lejano) y ruido de contenido (errores de gramática, disfluencias).

Por qué. VoiceBench se dirige explícitamente a estos ejes con instrucciones habladas (reales y sintéticas) que abarcan el conocimiento general, la instrucción y la seguridad; perturba el altavoz, el entorno y el contenido para sondear la robustez.

Protocolo.

Use VoiceBench para la amplitud en las capacidades de interacción del habla; Informe puntajes agregados y por eje. Para los detalles de SLU (NER, actos de diálogo, QA, resumen), palanca de apalancamiento y fase-2.

5) Calidad de discurso perceptual (para TTS y mejora)

Métrico. Puntuación subjetiva de opinión media a través de ITU-T P.808 (Crowdsourced ACR/DCR/CCR).
Por qué. La calidad de la interacción depende tanto del reconocimiento como de la calidad de reproducción. P.808 ofrece un protocolo de crowdsourcing validado con herramientas de código abierto.

Paisaje de referencia: lo que cada uno cubre

VoiceBench (2024)

Alcance: evaluación de asistente de voz de múltiples facetos con entradas habladas que cubren el conocimiento general, la instrucción siguiente, la seguridad y la robustez en las variaciones de altavoz/entorno/contenido; Utiliza el discurso real y sintético.
Limitaciones: no compara la latencia de barcazas/puntos finales o la finalización de la tarea del mundo real en los dispositivos; Se centra en la corrección y la seguridad de la respuesta bajo variaciones.

Fase de lla / lla-2

Alcance: tareas de comprensión del lenguaje hablado: ner, sentimiento, actos de diálogo, localización de entidad nombrada, control de calidad, resumen; Diseñado para estudiar la sensibilidad de extremo a extremo frente a la tubería a los errores ASR.
Uso: ideal para sondear la robustez de SLU y la fragilidad de la tubería en entornos hablados.

MASIVO

Alcance:> 1m enunciados asistidos por virtual en 51–52 idiomas con intentos/ranuras; Fuerte ajuste para una evaluación multilingüe orientada a tareas.
Uso: construya suites de tareas multilingües y mida TSR/ranura F1 en condiciones del habla (emparejado con TTS o lea el discurso).

Alcance: Responda de preguntas habladas para probar la comprensión del consumo de ASR y la robustez múltiple.
Uso: comprensión de prueba de estrés bajo errores de habla; No es una suite de tareas de agente completo.

Rastras de DSTC (Dialog System Technology Challenge)

Alcance: modelado de diálogo robusto con datos orientados a tareas hablados; calificaciones humanas junto con métricas automáticas; Las pistas recientes enfatizan la multilingüe, la seguridad y la dimensionalidad de la evaluación.
Uso: Complementaria para la calidad del diálogo, DST y respuestas fundamentadas en condiciones de habla.

Asistencia de tareas del mundo real (Bot de tareas del Premio Alexa)

Alcance: Asistencia de tareas de varios pasos con las calificaciones de los usuarios y los criterios de éxito (cocina/bricolaje).
Uso: Inspiración estándar de oro para definir TSR e KPI de interacción; Los informes públicos describen el enfoque y los resultados de la evaluación.

Llenar los vacíos: lo que aún necesita agregar

Barge-In y Endpointing KPIS
Agregue arneses de medición explícitos. La literatura ofrece verificación de barcazas y estrategias de procesamiento continuo; La transmisión de la latencia de punto final ASR sigue siendo un tema de investigación activo. Seguimiento de la latencia de detección de barcazas, corrección de supresión, retraso de punto final y falsas barcazas. Protocolos de alucinación bajo ruido (HUN)
Adoptar definiciones emergentes de calucinación ASR y pruebas controladas de ruido/no discurso; Informe la tasa de HUN y su impacto en las acciones posteriores. Latencia de interacción en el dispositivo
Correlacionar la latencia percibida por el usuario con los diseños de transmisión ASR (por ejemplo, variantes de transductor); Mida el tiempo hasta la primera vez, el tiempo hasta la final y la sobrecarga de procesamiento local. Matrices de robustez del eje cruzado
Combine los ejes de altavoz/entorno/contenido de VoiceBench con su conjunto de tareas (TSR) para exponer las superficies de falla (por ejemplo, barcazas bajo eco de campo lejano; éxito de tareas a baja SNR; ranuras multilingües en un cambio de acento). Calidad perceptiva para reproducción
Use ITU-T P.808 (con el Kit de herramientas Open P.808) para cuantificar la calidad de TTS percibida por el usuario en su bucle de extremo a extremo, no solo ASR.

Un plan de evaluación concreto y reproducible

Ensamble el núcleo de interacción del habla del suite: bancos de voz para el conocimiento, la instrucción seguimiento, la seguridad y los ejes de robustez. Profundidad de SLU: tareas de SLUE/fase-2 (NER, actos de diálogo, QA, resumen) para el rendimiento de SLU bajo el habla. Cobertura multilingüe: masiva para intención/ranura y estrés multilingüe. Comprensión bajo el ruido ASR: Squad/Heysquad para el QA hablado y las lecturas de múltiples acentos. Agregue capacidades faltantes Barge-In/Endpointing Arnés: interrupciones con guión en compensaciones y SNR controladas; tiempo de supresión de registro y falsos barcazas; Medir el retraso de punto final con la transmisión ASR. Alucinación bajo ruido: insertos sin voz y superposiciones de ruido; Anotar la relación semántica con calcular hun. Bloque de éxito de la tarea: tareas de escenario con verificaciones de éxito objetivo; Calcule tsr, tct y giros; Siga las definiciones de estilo de Bot Bot. Calidad perceptiva: p.808 ACR de crowdsourcing con el kit de herramientas de Microsoft. Estructura de informes Tabla primaria: TSR/TCT/Turns; Latencia de barcazas y tasas de error; Latencia de punto final; Tasa de hun; VoiceBench agregado y por eje; Métricas de SLU; P.808 Mos. Gráficos de estrés: TSR y HUN vs. SNR y reverberación; Latencia de Barge-In vs. Tiempo de interrupción.

Referencias

VoiceBench: primer punto de referencia de interacción del habla multifacética para asistentes de voz basados ​​en LLM (conocimiento, instrucción siguiente, seguridad, robustez). (AR5IV) Slaz / Slue Fase-2: Ner hablado, actos de diálogo, QA, resumen; Sensibilidad a los errores ASR en las tuberías. (ARXIV) Masivo: 1M+ Enunciados de intención multilingüe/ranura para asistentes. (Amazon Science) Squad / Heysquad: Hablado de preguntas que responden los conjuntos de datos. (GitHub) Evaluación centrada en el usuario en asistentes de producción (Cortana): Predecir la satisfacción más allá de ASR. (UMass Amherst) VERIFICACIÓN DE VERIFICACIÓN/LATENCIA DE PROCEDIMIENTO Y POTOS DE PNOR: AWS/Papeles académicos de barcazas, Microsoft Continua Barge-In, detección de punto final reciente para la transmisión de ASR. (ARXIV) Definiciones de alucinación ASR y alucinaciones no inducidas por la voz (Whisper). (arxiv)

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.

🙌 Siga a MarkTechPost: agrégenos como una fuente preferida en Google.