Los labios de silicona se movían con precisión con cada sílaba, formando la forma redondeada de “hola” y la posición cerrada de “mundo”. Por primera vez, un robot había aprendido a sincronizar el habla y el movimiento de los labios no mediante reglas preprogramadas, sino mirándose a sí mismo en un espejo.
Este no es sólo otro avance incremental en la robótica. Es un cambio fundamental en cómo las máquinas podrían conectarse con nosotros.
El laboratorio de Hod Lipson en la Universidad de Columbia lleva años intentando cruzar lo que los robóticos llaman el “valle inquietante”. Esa es la zona inquietante donde los robots humanoides parecen casi, pero no lo suficientemente humanos. El problema siempre ha sido la cara, y sobre todo la boca. Incluso los humanoides sofisticados tienden a mover los labios como muñecos, abriéndolos y cerrándolos en una aproximación aproximada del habla. Resulta que los humanos somos despiadadamente implacables con los errores faciales.
Atribuimos una enorme importancia a los gestos faciales, dice Lipson, quien dirige el Creative Machines Lab de Columbia. Los números así lo confirman. Durante una conversación cara a cara, casi la mitad de nuestra atención visual se centra en el movimiento de los labios. Cuando los labios no coinciden con el habla, aunque sea por una fracción de segundo, lo notamos inmediatamente.
El desafío tiene dos partes. Primero, necesita hardware mecánico complejo: una cara flexible con suficientes motores para formar formas sutiles. Luego viene la parte más difícil: enseñarle al robot qué formas hacer y cuándo. Los enfoques tradicionales implicaban programar manualmente los movimientos de los labios para cada fonema. Se trata de un proceso tedioso que produjo resultados forzados y poco convincentes. Es más bien como intentar enseñar la locomoción mediante reglas explícitas en lugar de dejar que el robot aprenda a caminar.
El equipo de Lipson adoptó un enfoque diferente. Construyeron una cara con 10 grados de libertad sólo en los labios. Dos motores para cada comisura, tres para el labio superior, uno para la mandíbula y dos para el labio inferior. Las esquinas pueden retraerse o sobresalir, permitiendo el sellado hermético necesario para sonidos como “b” y “p”. El sistema utiliza conectores magnéticos que permiten que la suave piel de silicona se adhiera con precisión a la infraestructura mecánica que se encuentra debajo. Esto facilita el intercambio de caras para una iteración rápida.
Luego le dieron un espejo. Durante horas, el robot realizó movimientos faciales aleatorios (pucheros, fruncimientos, muecas) mientras una cámara registraba lo que producía cada configuración motora. Como un bebé que descubre su propio reflejo, el robot aprendió qué comandos creaban qué expresiones. Este automodelo se convirtió en la base de todo lo que siguió.
El siguiente paso implicó vídeo sintetizado. El equipo utilizó herramientas de inteligencia artificial existentes para generar videos de la cara del robot hablando, con los labios perfectamente sincronizados con el audio. Estos videos proporcionaron un objetivo, las formas de labios a las que debería apuntar el robot. Pero aquí está la parte inteligente: no intentaron controlar directamente los motores basándose en el sonido. En cambio, entrenaron una red de transformadores para ver los videos sintetizados y descubrir qué comandos motores recrearían esos movimientos de los labios en el robot real.
El sistema ahora puede hablar en 10 idiomas en los que nunca ha sido entrenado. Inglés, francés, japonés, coreano, español, italiano, alemán, ruso, chino, hebreo y árabe. La capacidad multilingüe surgió casi por accidente. Al parecer, entrene predominantemente con los patrones del habla en inglés, y las relaciones subyacentes entre labios y audio se generalizan sorprendentemente bien en diferentes sistemas fonéticos.
Todavía existen limitaciones obvias. Los sonidos fuertes como “b” le dan problemas, al igual que las formas que requieren fruncir los labios como “w”. La sincronización no es perfecta. Los hablantes humanos suelen empezar a dar forma a sus labios entre 80 y 300 milisegundos antes de que surja cualquier sonido, una capacidad de predicción de la que carece el sistema actual. Y las limitaciones mecánicas de los servomotores y la piel elástica significan que algunos movimientos siguen siendo cinemáticamente difíciles o imposibles.
Pero Yuhang Hu, quien dirigió la investigación para su doctorado, ve un significado más profundo. Cuando combinas esta capacidad de sincronización de labios con IA conversacional como ChatGPT, la conexión emocional cambia. El robot se vuelve menos herramienta, más presencia. Que es precisamente lo que les preocupa.
“Será una tecnología poderosa”, reconoce Lipson. “Tenemos que ir despacio y con cuidado, para poder cosechar los beneficios y minimizar los riesgos”.
A medida que los robots se vuelvan más hábiles para conectarse con los humanos (a través de sonrisas, contacto visual, habla), podrían ser explotados para ganarse la confianza de personas vulnerables. Niños y ancianos especialmente. Incluso las aplicaciones bien intencionadas en la atención sanitaria o en el cuidado de personas mayores podrían crear dependencias emocionales problemáticas.
Algunos economistas estiman que en la próxima década se fabricarán más de mil millones de robots humanoides. La mayoría necesitará rostros, sostiene Lipson, porque los humanos simplemente estamos programados para responder a señales faciales. No podemos evitarlo. Y los robots sin rostro seguirán siendo misteriosos para siempre.
El equipo lanzó recientemente el álbum musical debut de su robot. Es una colección generada por IA llamada “hello world_” que demuestra el sistema cantando además de hablando. Este robot cantante supone un hito peculiar en la robótica, pero apunta a algo más grande. Por primera vez, las máquinas están aprendiendo a comunicarse mediante el canal audiovisual completo que utilizan los humanos, no sólo mediante el audio.
Sigue siendo una cuestión abierta si estamos preparados para robots que puedan sonreírnos, hablarnos con labios sincronizados adecuadamente y conectarse con nosotros a nivel emocional. Pero la tecnología está aquí. Lipson, que se autodenomina un robotista hastiado, admite que no puede evitar devolverle la sonrisa cuando el robot le sonríe espontáneamente. Algo mágico sucede, dice, cuando un robot aprende estos gestos observando y escuchando a los humanos.
El valle inquietante podría finalmente tener un puente que lo cruce. Queda por ver si debemos cruzar.
No hay muro de pago aquí
Si nuestros informes lo han informado o inspirado, considere hacer una donación. Cada contribución, sin importar el tamaño, nos permite continuar brindando noticias médicas y científicas precisas, atractivas y confiables. El periodismo independiente requiere tiempo, esfuerzo y recursos; su apoyo garantiza que podamos seguir descubriendo las historias que más le importan.
Únase a nosotros para hacer que el conocimiento sea accesible e impactante. ¡Gracias por estar con nosotros!