“Robot, hazme una silla” | Noticias del MIT

Los sistemas de diseño asistido por computadora (CAD) son herramientas comprobadas que se utilizan para diseñar muchos de los objetos físicos que utilizamos todos los días. Pero el software CAD requiere una amplia experiencia para dominarlo, y muchas herramientas incorporan un nivel de detalle tan alto que no se prestan a una lluvia de ideas o a la creación rápida de prototipos.

En un esfuerzo por hacer que el diseño sea más rápido y más accesible para los no expertos, investigadores del MIT y de otros lugares desarrollaron un sistema de ensamblaje robótico impulsado por inteligencia artificial que permite a las personas construir objetos físicos simplemente describiéndolos con palabras.

Su sistema utiliza un modelo de IA generativo para construir una representación 3D de la geometría de un objeto según las indicaciones del usuario. Luego, un segundo modelo de IA generativa razona sobre el objeto deseado y determina dónde deben ir los diferentes componentes, según la función y la geometría del objeto.

El sistema puede construir automáticamente el objeto a partir de un conjunto de piezas prefabricadas mediante ensamblaje robótico. También puede iterar sobre el diseño basándose en los comentarios del usuario.

Los investigadores utilizaron este sistema integral para fabricar muebles, incluidas sillas y estantes, a partir de dos tipos de componentes prefabricados. Los componentes se pueden desmontar y volver a montar a voluntad, lo que reduce la cantidad de residuos generados durante el proceso de fabricación.

Evaluaron estos diseños a través de un estudio de usuarios y descubrieron que más del 90 por ciento de los participantes preferían los objetos creados por su sistema impulsado por IA, en comparación con diferentes enfoques.

Si bien este trabajo es una demostración inicial, el marco podría ser especialmente útil para la creación rápida de prototipos de objetos complejos como componentes aeroespaciales y objetos arquitectónicos. A largo plazo, podría usarse en hogares para fabricar muebles u otros objetos localmente, sin la necesidad de enviar productos voluminosos desde una instalación central.

“Tarde o temprano, queremos poder comunicarnos y hablar con un robot y un sistema de inteligencia artificial de la misma manera que nos hablamos entre nosotros para hacer cosas juntos. Nuestro sistema es un primer paso para hacer posible ese futuro”, dice el autor principal Alex Kyaw, estudiante de posgrado en los departamentos de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y Arquitectura del MIT.

A Kyaw se unen en el artículo Richa Gupta, estudiante de posgrado en arquitectura del MIT; Faez Ahmed, profesor asociado de ingeniería mecánica; Lawrence Sass, profesor y presidente del Grupo de Computación del Departamento de Arquitectura; el autor principal Randall Davis, profesor de EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); así como otros en Google Deepmind y Autodesk Research. El artículo se presentó recientemente en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

Generando un diseño multicomponente

Si bien los modelos generativos de IA son buenos para generar representaciones 3D, conocidas como mallas, a partir de mensajes de texto, la mayoría no produce representaciones uniformes de la geometría de un objeto que tengan los detalles a nivel de componente necesarios para el ensamblaje robótico.

Separar estas mallas en componentes es un desafío para un modelo porque la asignación de componentes depende de la geometría y la funcionalidad del objeto y sus partes.

Los investigadores abordaron estos desafíos utilizando un modelo de visión y lenguaje (VLM), un potente modelo de IA generativa que ha sido previamente entrenado para comprender imágenes y texto. Le encargan al VLM que descubra cómo dos tipos de piezas prefabricadas, componentes estructurales y componentes de paneles, deben encajar para formar un objeto.

“Hay muchas maneras en que podemos colocar paneles en un objeto físico, pero el robot necesita ver la geometría y razonar sobre esa geometría para tomar una decisión al respecto. Al actuar como ojos y cerebro del robot, el VLM le permite hacer esto”, dice Kyaw.

Un usuario solicita al sistema un texto, tal vez escribiendo “hazme una silla”, y le da una imagen de una silla generada por IA para comenzar.

Luego, el VLM razona sobre la silla y determina dónde van los componentes del panel encima de los componentes estructurales, basándose en la funcionalidad de muchos objetos de ejemplo que ha visto antes. Por ejemplo, el modelo puede determinar que el asiento y el respaldo deben tener paneles para tener superficies para que alguien se siente y se recueste en la silla.

Genera esta información como texto, como “asiento” o “respaldo”. Luego, cada superficie de la silla se etiqueta con números y la información se envía al VLM.

Luego el VLM elige las etiquetas que corresponden a las partes geométricas de la silla que deben recibir paneles en la malla 3D para completar el diseño.

Codiseño humano-IA

El usuario permanece informado durante todo este proceso y puede refinar el diseño dándole al modelo un nuevo mensaje, como “use solo paneles en el respaldo, no en el asiento”.

“El espacio de diseño es muy grande, por lo que lo reducimos a través de los comentarios de los usuarios. Creemos que esta es la mejor manera de hacerlo porque las personas tienen diferentes preferencias y construir un modelo idealizado para todos sería imposible”, dice Kyaw.

“El proceso humano-in-the-loop permite a los usuarios dirigir los diseños generados por IA y tener un sentido de propiedad del resultado final”, añade Gupta.

Una vez finalizada la malla 3D, un sistema de ensamblaje robótico construye el objeto utilizando piezas prefabricadas. Estas piezas reutilizables se pueden desmontar y volver a montar en diferentes configuraciones.

Los investigadores compararon los resultados de su método con un algoritmo que coloca paneles en todas las superficies horizontales que miran hacia arriba y un algoritmo que coloca paneles al azar. En un estudio de usuarios, más del 90 por ciento de las personas prefirieron los diseños realizados por su sistema.

También pidieron al VLM que explicara por qué decidió colocar paneles en esas áreas.

“Aprendimos que el modelo de lenguaje de visión es capaz de comprender hasta cierto punto los aspectos funcionales de una silla, como inclinarse y sentarse, para comprender por qué coloca paneles en el asiento y el respaldo. No se trata simplemente de escupir estas asignaciones al azar”, dice Kyaw.

En el futuro, los investigadores quieren mejorar su sistema para manejar indicaciones de usuario más complejas y matizadas, como una mesa hecha de vidrio y metal. Además, quieren incorporar componentes prefabricados adicionales, como engranajes, bisagras u otras piezas móviles, para que los objetos puedan tener más funcionalidad.

“Nuestra esperanza es reducir drásticamente la barrera de acceso a las herramientas de diseño. Hemos demostrado que podemos utilizar la IA generativa y la robótica para convertir ideas en objetos físicos de una manera rápida, accesible y sostenible”, afirma Davis.