¿Puedes oír el futuro? La voz AI de SquadStack acaba de engañar al 81% de los oyentes

Imagínese responder una llamada y charlar, solo para descubrir minutos después que la “persona” al otro lado de la línea no era humana en absoluto. ¿Espeluznante? ¿Impresionante? Quizás un poco de ambas cosas.

Eso es exactamente lo que sucedió en el Global Fintech Fest 2025, donde SquadStack.ai causó sensación al afirmar que su inteligencia artificial de voz había pasado efectivamente la prueba de Turing, la antigua medida de si una máquina puede imitar de manera convincente la inteligencia humana.

El experimento fue simple pero atrevido. Más de 1.500 participantes participaron en conversaciones de voz en vivo y sin guión, y el 81% no pudo saber si estaban hablando con una IA o un humano.

Es el tipo de hito que hace que incluso los escépticos se sientan erguidos. Hemos oído hablar del arte de la IA y de los chatbots, pero ¿esto? Se trata de IA hablando –literalmente– y haciéndolo lo suficientemente bien como para desdibujar la realidad.

Me recuerda cuando OpenAI presentó su Voice Engine, un modelo que podía generar voz natural a partir de sólo 15 segundos de audio.

En aquel entonces, Internet se volvió loco por las implicaciones: creativas, éticas y francamente inquietantes.

Lo que SquadStack parece haber hecho ahora es impulsar esa visión aún más, demostrando que los matices conversacionales no tienen que ver sólo con el tono y el tono, sino también con el tiempo, la emoción y el contexto.

Pero hagamos una pausa, porque no todo el mundo está celebrando. Los reguladores han comenzado a apretarse el cinturón.

En Europa, los formuladores de políticas ya están presionando para que se divulgue la identidad de las voces generadas por IA de manera más estricta, haciéndose eco de los crecientes temores de estafas ultrafalsas y suplantación digital.

Dinamarca, por ejemplo, está redactando una ley contra las falsificaciones de voz impulsadas por IA, citando casos en los que se utilizaron voces clonadas para fraude y desinformación.

Mientras tanto, el mundo empresarial está aplaudiendo. Empresas como SoundHound AI están informando de un crecimiento masivo de sus ganancias, lo que demuestra que la generación de voz no es sólo una tecnología genial, sino un buen negocio.

Si los consumidores no pueden distinguir la IA de las personas reales, los centros de llamadas, los asistentes virtuales y los agentes de ventas digitales pronto podrían resultar indistinguibles de sus colegas humanos. Eso es eficiencia en estéreo.

También hay un fascinante paralelo aquí con el trabajo de Subtle Computing sobre el aislamiento de voz de la IA: están enseñando a las máquinas a seleccionar el habla en entornos caóticos.

En realidad, es casi poético: una startup hace que la IA escuche mejor, otra la hace hablar mejor.

Cuando esos dos hilos se encuentren, tendremos una IA que podrá escucharnos perfectamente, responder con naturalidad y tal vez incluso argumentar de manera convincente.

Por supuesto, esto plantea la gran pregunta: ¿cuánto de esto queremos realmente? Como alguien que todavía disfruta de las pequeñas charlas con el barista y las llamadas telefónicas con personas reales, la idea me resulta a la vez emocionante y desconcertante.

La tecnología es deslumbrante, sin duda. Pero una parte de mí extraña los tropiezos, las pausas incómodas, las pequeñas imperfecciones que hacen que las voces humanas parezcan vivas.

Aún así, es difícil no sentirse asombrado. Ya sea que lo vea como un paso hacia un mundo digital fluido o como una señal de advertencia de lo que vendrá, una cosa es innegable: las voces del mañana ya están hablando. Y si no puedes saber quién está hablando… bueno, tal vez ese sea el punto.