Por qué los robots humanoides están aprendiendo tareas cotidianas más rápido de lo esperado

En septiembre pasado, el roboticista Benjie Holson publicó los “Juegos Olímpicos Humanoides”: una serie de pruebas cada vez más difíciles para robots humanoides que él mismo demostró vestido con un mono plateado. Los desafíos, como abrir una puerta con un pomo redondo, comenzaron siendo fáciles, al menos para un humano, y progresaron hasta tareas de “medalla de oro”, como abotonar y colgar correctamente una camisa de vestir de hombre y usar una llave para abrir una puerta.

El punto de Holson fue que las tareas difíciles no son las deslumbrantes. Mientras que otras competiciones presentan robots que practican deportes y bailan, Holson argumentó que los robots que realmente queremos son los que pueden lavar la ropa y cocinar.

Esperaba que los desafíos tardaran años en resolverse. En cambio, en cuestión de meses, la empresa de robótica Physical Intelligence completó 11 de los 15 desafíos (del bronce al oro) con un robot que lavaba ventanas, untaba mantequilla de maní y usaba una bolsa para excrementos de perro.

Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.

Scientific American habló con Holson sobre por qué los sistemas basados ​​únicamente en visión o basados ​​en cámaras están superando sus expectativas y lo cerca que estamos de una máquina genuinamente útil. Desde entonces, ha lanzado una serie de desafíos nuevos y más difíciles.

[An edited transcript of the interview follows.]

Diseñaste estos desafíos para que fueran difíciles. ¿Le sorprendió lo rápido que llegaron los resultados?

Fue mucho más rápido de lo que esperaba. Cuando elegí los desafíos, estaba tratando de calibrarlos para que algunos de bronce se completaran en el primer mes o dos, luego los de plata y oro en los siguientes seis meses, y los más difíciles pudieran tomar un año o un año y medio. Que los hagan básicamente casi todos en los primeros tres meses es una locura.

¿Qué hizo eso posible?

Comencé con la premisa de que tenemos cosas que parecen impresionantes en un conjunto bastante reducido de tareas: sólo visión, sin contacto, simple manipulación, no una precisión increíble. Eso limita aquello en lo que puedes ser bueno. Intenté pensar en tareas que requerirían que saliéramos de ese conjunto. Resulta que subestimé enormemente lo que es posible con manipuladores simples y de solo visión.

Cuando visité Inteligencia Física, descubrí que no tienen ningún sensor de fuerza. Están haciendo todo eso 100 por ciento basado en la visión. La tarea de inserción clave, la extensión de mantequilla de maní, pensé que requerirían acciones de fuerza. Pero aparentemente simplemente le lanzas más demostraciones en video y funciona.

¿Cómo se entrena exactamente a un robot para que haga eso sin codificarlo línea por línea?

Todo es aprender de la demostración. Alguien teleopera al robot realizando la tarea cientos de veces, entrena un modelo basado en eso y luego el robot puede realizar la tarea.

Existe mucha confusión sobre si los modelos de lenguajes grandes (LLM) son inútiles para los robots. ¿Lo son?

Tenía bastantes dudas sobre la utilidad de los LLM en robótica. El problema que resolvieron bien hace dos o tres años fue la planificación de alto nivel: “Si quiero preparar té, ¿cuáles son los pasos?” Ordenar los pasos es la parte fácil. Coger la tetera y llenarla es lo realmente desafiante.

Por otro lado, hemos empezado a hacer modelos de visión-acción utilizando la misma arquitectura de transformador. [as that used in LLMs]. Puede utilizar transformadores para entrada y salida de texto, entrada y salida de texto, pero también para entrada y salida de imágenes y acciones de robots.

Lo bueno es que están comenzando con modelos previamente entrenados en texto, imágenes y tal vez video. Incluso antes de comenzar a entrenar tu tarea específica, la IA ya entiende qué es una tetera, qué es agua y que es posible que desees llenar una tetera con agua. Entonces, mientras entrenas tu tarea, no es necesario que comiences con “Déjame descubrir qué es la geometría”. Puede comenzar con: “Ya veo, estamos moviendo las teteras”, lo cual es una locura que funcione.

¿Cómo se te ocurrieron las tareas “olímpicas”?

Entonces, en parte fue un desafío y en parte fue una predicción. Intenté pensar en el siguiente conjunto de cosas que no podemos hacer ahora y que alguien podrá hacer pronto.

Los humanos dependen del tacto para hacer cosas como buscar llaves en un bolsillo. ¿Cómo solucionamos esto en robótica?

Esa es una muy buena pregunta cuya respuesta aún no sabemos. La tecnología táctil es mucho peor, más cara, delicada y muy por detrás de las cámaras. Cámaras, en las que hemos estado trabajando durante mucho tiempo.

La gran pregunta es: ¿son suficientes las cámaras? Tanto la inteligencia física como la robótica dominical [which completed the bronze-medal task of rolling matched socks] Han hecho la apuesta de que poner una cámara en la muñeca, muy cerca de los dedos, te permite ver las fuerzas al ver cómo todo se aplasta. Cuando el robot agarra algo, ve que los dedos tienen una goma que se desvía; el objeto se desvía y de ello infiere fuerzas. Al untar pan con mantequilla de maní, el robot observa cómo el cuchillo se desvía hacia abajo y aplasta el pan y juzga las fuerzas a partir de eso. Funciona mucho mejor de lo que esperaba.

¿Qué pasa con la seguridad?

La energía necesaria para mantener el equilibrio suele ser bastante elevada. Si un robot cae, se trata de una aceleración muy rápida y fuerte para que la pierna avance a tiempo. Su sistema tiene que inyectar mucha energía al mundo, y eso es lo que no es seguro.

Soy un gran admirador de los robots centauros: ruedas móviles con brazos y cabeza. Por seguridad, esa es una manera más fácil de llegar rápidamente. Si un humanoide pierde poder, se caerá. El plan general parece ser hacer un robot tan increíblemente valioso que nosotros, como sociedad, le creemos una nueva clase de seguridad, como las bicicletas y los automóviles. Son peligrosos pero tan valiosos que toleramos el riesgo.

¿Estos resultados han cambiado su línea de tiempo?

Solía ​​pensar que faltaban al menos 15 años para que existieran los robots domésticos. Ahora creo que al menos seis. La diferencia es que pensé que pasaría mucho más tiempo antes de que fuera plausible hacer algo útil en un espacio humano, incluso como demostración.

Pero los robóticos han visto una y otra vez que hay un largo camino entre “funcionó en un laboratorio y obtuve un video” y “puedo vender un producto”. Waymo circulaba por carreteras en 2009; No pude comprar un viaje hasta 2024. Se necesita mucho tiempo para cuadrar la confiabilidad.

¿Cuál es el mayor cuello de botella que queda?

Confiabilidad y seguridad: lo que muestra la Inteligencia Física es increíblemente impresionante, pero si lo colocas en una mesa diferente con iluminación diferente y usas un calcetín diferente, es posible que no funcione. Cada paso hacia la generalización parece requerir un orden de magnitud más de datos, convirtiendo los días de recopilación de datos en semanas o meses.