ChatGPT da un paseo por el lado robótico: la última maravilla mecánica de Boston Dynamics ahora responde

En un desarrollo innovador, la empresa de ingeniería Boston Dynamics ha integrado ChatGPT, un sofisticado modelo de lenguaje desarrollado por OpenAI, en uno de sus destacados robots, Spot. Este compañero canino ahora está equipado para ofrecer visitas guiadas por un edificio, brindando comentarios detallados sobre cada exhibición a lo largo del camino.

Spot ha experimentado una transformación notable y ahora cuenta con una selección de personalidades distintivas. Dependiendo de la persona elegida, la voz, el tono y los comentarios personalizados del robot se adaptan en consecuencia.

Para percibir su entorno, Spot emplea modelos Visual Question Answering (VQA), capaces de generar leyendas para imágenes y proporcionar respuestas concisas a consultas sobre ellas. Estos datos visuales se actualizan aproximadamente una vez por segundo y se transmiten al sistema como un mensaje de texto.

Las capacidades de comunicación de Spot también se han mejorado al agregar un soporte resistente a las vibraciones especialmente diseñado para un altavoz Respeaker V2, un micrófono en forma de anillo adornado con LED. Este hardware innovador se integra perfectamente con la carga útil EAP 2 de Spot a través de USB.

El control del robot lo gestiona una computadora externa, ya sea una computadora de escritorio o una computadora portátil, que se comunica con Spot a través de su kit de desarrollo de software (SDK). Se ha implementado un sencillo servicio Spot SDK para facilitar la comunicación de audio con el EAP 2.

En cuanto a las respuestas verbales, Spot confía en el servicio de conversión de texto a voz de ElevenLabs. Para optimizar el tiempo de respuesta, los ingenieros han ideado un sistema en el que el texto se transmite a la herramienta en paralelo como “frases” y el audio resultante se reproduce en serie.

Añadiendo un toque de personalidad, Spot ahora exhibe capacidades de lenguaje corporal. Puede identificar y rastrear objetos en movimiento, lo que le permite discernir la ubicación de la persona más cercana y orientar su brazo hacia ella. Para crear un toque caprichoso, se aplicó un filtro de paso bajo al habla generada, imitando el movimiento de la boca de una marioneta. Este efecto se acentúa aún más adornando la pinza con disfraces cómicos y colocándole ojos saltones.

Uno de los aspectos más intrigantes de este experimento radica en la lógica inherente de la IA, que requirió un ajuste mínimo. Cuando se le preguntó acerca de sus “padres”, Spot sorprendentemente navegó hasta el lugar donde residían sus predecesores, declarándolos con humor sus “mayores”. Este es un testimonio de la capacidad del modelo para establecer asociaciones estadísticas entre conceptos sin que implique conciencia.

Sin embargo, vale la pena señalar que la manifestación tiene sus limitaciones. Spot, como muchos modelos de lenguaje, ocasionalmente puede experimentar alucinaciones, en las que genera información ficticia. Un ejemplo intrigante de este fenómeno se puede encontrar en un artículo que analiza una ciudad inspirada en Los Sims poblada por agentes de IA. Además, hay un ligero retraso en las respuestas, y los usuarios ocasionalmente experimentan un tiempo de espera de aproximadamente seis segundos.

A pesar de estos pequeños contratiempos, este proyecto marca un importante avance en la investigación en la intersección de la robótica y la inteligencia artificial. Boston Dynamics se compromete a explorar más a fondo esta fusión de tecnologías, con el objetivo final de mejorar el rendimiento robótico en entornos centrados en el ser humano. Este prometedor esfuerzo tiene el potencial de revolucionar la forma en que interactuamos con las máquinas, marcando el comienzo de una nueva era de compañía inteligente.


Revisar la Artículo de referencia. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

también estamos en Telegrama y WhatsApp.


Niharika es pasante de consultoría técnica en Marktechpost. Es estudiante de tercer año y actualmente cursa su licenciatura en tecnología en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos avances en estos campos.