La empresa de inteligencia artificial de Elon Musk, xAI, lanzó dos API de audio independientes: una API de voz a texto (STT) y una API de texto a voz (TTS), ambas construidas sobre la misma infraestructura que impulsa Grok Voice en aplicaciones móviles, vehículos Tesla y atención al cliente de Starlink. El lanzamiento lleva a xAI directamente al competitivo mercado de API de voz que actualmente ocupan ElevenLabs, Deepgram y AssemblyAI.
¿Qué es la API de voz a texto de Grok?
Speech-to-Text es la tecnología que convierte audio hablado en texto escrito. Para los desarrolladores que crean herramientas de transcripción de reuniones, agentes de voz, análisis de centros de llamadas o funciones de accesibilidad, una API STT es un componente básico. En lugar de desarrollar esto desde cero, los desarrolladores llaman a un punto final, envían audio y reciben a cambio una transcripción estructurada.
La API Grok STT ahora está disponible de forma generalizada y ofrece transcripción en 25 idiomas con modos por lotes y de transmisión. El modo por lotes está diseñado para procesar archivos de audio pregrabados, mientras que la transmisión permite la transcripción en tiempo real a medida que se captura el audio. El precio es sencillo: la conversión de voz a texto cuesta $0,10 por hora por lotes y $0,20 por hora por transmisión.
La API incluye marcas de tiempo a nivel de palabra, diario de los hablantes y soporte multicanal, junto con una normalización de texto inverso inteligente que maneja correctamente números, fechas, monedas y más. También acepta 12 formatos de audio: nueve formatos contenedores (WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV) y tres formatos sin formato (PCM, ley µ, ley A), con un tamaño de archivo máximo de 500 MB por solicitud.
La diarioización de locutores es el proceso de separar el audio por locutores individuales, respondiendo a la pregunta “quién dijo qué”. Esto es fundamental para grabaciones de varios oradores, como reuniones, entrevistas o llamadas de clientes. Las marcas de tiempo a nivel de palabra asignan horas de inicio y finalización precisas a cada palabra de la transcripción, lo que permite casos de uso como generación de subtítulos, grabaciones con capacidad de búsqueda y documentación legal. La normalización de texto inverso convierte formas habladas como “ciento sesenta y siete mil novecientos ochenta y tres dólares con quince centavos” en una salida estructurada legible: “$167.983,15”.
Rendimiento de referencia
El equipo de investigación de xAI hace sólidas afirmaciones sobre la precisión. En el reconocimiento de entidades de llamadas telefónicas (nombres, números de cuentas, fechas), Grok STT afirma una tasa de error del 5,0% frente a ElevenLabs con un 12,0%, Deepgram con un 13,5% y AssemblyAI con un 21,3%. Se trata de un margen sustancial si se mantiene en producción. Para la transcripción de videos y podcasts, Grok y ElevenLabs empataron con una tasa de error del 2,4%, con Deepgram y AssemblyAI a la zaga con un 3,0% y 3,2% respectivamente. El equipo de xAI también informa una tasa de error de palabras del 6,9 % en pruebas comparativas de audio generales.
¿Qué es la API de conversión de texto a voz de Grok?
Text-to-Speech convierte texto escrito en audio hablado. Los desarrolladores utilizan las API de TTS para potenciar asistentes de voz, funciones de lectura en voz alta, generación de podcasts, sistemas IVR (respuesta de voz interactiva) y herramientas de accesibilidad.
La API Grok TTS ofrece una síntesis de voz rápida y natural con control detallado mediante etiquetas de voz y tiene un precio de 4,20 dólares por 1 millón de caracteres. La API acepta hasta 15.000 caracteres por solicitud REST; para contenido más extenso, hay disponible un punto final de transmisión WebSocket que no tiene límite de longitud de texto y comienza a devolver audio antes de que se procese la entrada completa. La API admite 20 idiomas y cinco voces distintas: Ara, Eve, Leo, Rex y Sal, con Eve configurada como predeterminada.
Más allá de la selección de voz, los desarrolladores pueden inyectar etiquetas de voz en línea y envolventes para controlar la entrega. Estos incluyen etiquetas en línea como [laugh], [sigh]y [breath]y envolver etiquetas como texto y texto, lo que permite a los desarrolladores crear entregas atractivas y realistas sin marcas complejas. Esta expresividad aborda una de las principales limitaciones de los sistemas TTS tradicionales, que a menudo producen resultados técnicamente correctos pero emocionalmente planos.
Conclusiones clave
xAI ha lanzado dos API de audio independientes: Grok Speech-to-Text (STT) y Text-to-Speech (TTS), construidas en la misma pila de producción que ya presta servicios a millones de usuarios en aplicaciones móviles de Grok, vehículos Tesla y atención al cliente de Starlink. La API Grok STT ofrece transcripción en tiempo real y por lotes en 25 idiomas con diario de hablantes, marcas de tiempo a nivel de palabra, normalización de texto inverso y soporte para 12 formatos de audio, con un precio de $0,10/hora por lote y $0,20/hora por transmisión. En los puntos de referencia de reconocimiento de entidades de llamadas telefónicas, Grok STT informa una tasa de error del 5,0 %, superando significativamente a ElevenLabs (12,0 %), Deepgram (13,5 %) y AssemblyAI (21,3 %), con un desempeño particularmente sólido en casos de uso médico, legal y financiero. La API Grok TTS admite cinco voces expresivas (Ara, Eve, Leo, Rex, Sal) en 20 idiomas, con etiquetas de voz integradas y envolventes como [laugh], [sigh]y brinda a los desarrolladores un control detallado sobre la entrega vocal, con un precio de 4,20 dólares por millón de caracteres.
Consulta los detalles técnicos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.