StepFun lanza StepAudio 2.5 Realtime: un modelo de voz de extremo a extremo con RLHF específico para juegos de rol y comprensión paralingüística

StepFun, el laboratorio de inteligencia artificial con sede en Shanghai, lanzó StepAudio 2.5 Realtime. Es un modelo de lenguaje amplio de voz en tiempo real de extremo a extremo con capacidades de personalidad totalmente personalizables.

StepAudio 2.5 Realtime es un modelo de voz que opera en tiempo real. A diferencia de los sistemas basados ​​en canalizaciones que separan el reconocimiento de voz, el razonamiento y la síntesis en pasos secuenciales, este es un modelo de extremo a extremo. El audio entra y sale a través de un único sistema unificado. El modelo admite chino e inglés.

Se conecta a través de una API WebSocket. El punto final es wss://api.stepfun.com/v1/realtime usando la cadena de modelo step-2.5-realtime.

Los tres pilares técnicos

El equipo de investigación de StepFun describe tres innovaciones arquitectónicas centrales detrás del modelo:

1. Aumento de datos personales a escala millonaria

A partir de más de 10 000 personas de alta calidad creadas de forma nativa, StepFun aplicó un aumento algorítmico para crear una matriz de características de personas a escala de un millón. Esto se combinó con millones de muestras de conversaciones del mundo real para capacitación. La intención es la generalización, específicamente, un desempeño estable en temas de conversación difíciles y de larga duración.

En lugar de etiquetar manualmente millones de muestras de personas, el equipo de StepFun utilizó una expansión algorítmica a partir de un conjunto de semillas seleccionado.

2. Alineación RLHF específica del juego de roles

Un modo de falla conocido en la IA conversacional es el comportamiento “fuera de lugar” (OOC), cuando un modelo se aleja de su personaje definido en mitad de una conversación. El equipo de StepFun llevó a cabo una optimización dedicada de RLHF (aprendizaje reforzado a partir de comentarios humanos) específicamente para lograr la coherencia de las personas en escenarios de juegos de rol. RLHF es una técnica de entrenamiento en la que se utilizan señales de preferencia humana para entrenar un modelo de recompensa, que luego guía el comportamiento del modelo de lenguaje. Aplicarlo específicamente a la estabilidad del juego de roles es una elección de diseño específica.

3. Comprensión y generación unificadas del habla

StepAudio 2.5 Realtime hereda las capacidades TTS de StepAudio 2.5 y fusiona profundamente la comprensión y generación del habla a través del aprendizaje por refuerzo. Esto permite lo que StepFun llama “establecimiento tonal global a nivel de escena” y “escultura de detalles dentro de la oración”. El modelo puede establecer un registro emocional general para una respuesta mientras ajusta detalles acústicos más finos dentro de oraciones individuales.

Comprensión paralingüística

Un área técnicamente distinta de este modelo es la percepción paralingüística. La paralingüística se refiere a la información acústica no verbal en el habla, como el tono, la velocidad del habla, las pausas, los suspiros y la risa. Al analizar estos elementos, el modelo puede percibir el estado de ánimo del usuario y sus intenciones subyacentes. Por ejemplo, puede identificar fatiga por un tono bajo o frustración por un ritmo de habla rápido. La captura de estas señales requiere que el modelo funcione con funciones de audio en lugar de texto transcrito únicamente.

StepAudio 2.5 Realtime obtuvo una puntuación de 82,18 en el punto de referencia de comprensión paralingüística, lo que demuestra la percepción de la velocidad vocal, las emociones, la edad y otras características acústicas.

https://stepaudiollm.github.io/step-audio-2.5-realtime/

Resultados de referencia

El equipo de investigación de StepFun llevó a cabo un conjunto completo de evaluaciones subjetivas y objetivas, comparando StepAudio 2.5 Realtime con modelos líderes de voz en tiempo real en cinco dimensiones.

La evaluación humana se lleva a cabo a través de conversaciones reales en aplicaciones móviles calificadas por evaluadores humanos. Las puntuaciones:

Evaluación humana (subjetiva): 80,41 Diálogo general (objetivo): 86,36 Escenario automotriz (objetivo): 84,80 Control de calidad oral, que cubre 11 tareas de comprensión de audio (objetivo): 79,80 Comprensión paralingüística (objetivo): 82,18

Conclusiones clave

StepAudio 2.5 Realtime es un LLM de voz en tiempo real de extremo a extremo, lanzado por StepFun, con sede en Shanghai. Utiliza RLHF específico de la persona y aumento de datos a escala de millones para mantener una coherencia estable de los personajes. El modelo ocupó el primer lugar en las cinco dimensiones de referencia, probadas en abril de 2026. La comprensión paralingüística (percibir el tono, la velocidad y las emociones a partir del audio) es un diferenciador técnico fundamental. El acceso a la API se realiza a través de WebSocket en wss://api.stepfun.com/v1/realtime con la cadena de modelo step-2.5-realtime.

Consulte la tarjeta modelo y la demostración. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.