El modelado de información de construcción (BIM) es un método integral de representación de activos construidos mediante datos geométricos y semánticos. Estos datos se pueden utilizar durante toda la vida útil de un edificio y compartirse en formularios específicos entre las partes interesadas del proyecto. El software de creación de modelado de información de construcción (BIM) actual tiene en cuenta diversas necesidades de diseño. Debido a esta estrategia unificada, el software ahora incluye muchas funciones y herramientas, lo que ha aumentado la complejidad de la interfaz de usuario. Traducir las intenciones de diseño en flujos de comandos complicados para generar modelos de construcción en el software puede ser un desafío para los diseñadores, que a menudo necesitan una formación sustancial para superar la pronunciada curva de aprendizaje.
Investigaciones recientes sugieren que los modelos de lenguaje grande (LLMs) se pueden utilizar para producir elementos de pared automáticamente. Los modelos generativos 3D avanzados, como Magic3D y DreamFusion, permiten a los diseñadores transmitir su intención de diseño en lenguaje natural en lugar de a través de laboriosos comandos de modelado; esto es particularmente útil en campos como la realidad virtual y el desarrollo de juegos. Sin embargo, estos métodos de texto a 3D generalmente utilizan representaciones implícitas como los campos de radiancia neuronal (NeRFs) o vóxeles, que solo tienen datos geométricos a nivel de superficie y no incluyen información semántica ni modelan lo que los objetos 3D podrían tener dentro. Es difícil incorporar estas formas 3D completamente geométricas en los procesos de diseño arquitectónico basados en BIM debido a las discrepancias entre los modelos BIM nativos y estos. Es difícil emplear estos modelos en trabajos de simulación, análisis y mantenimiento de edificios posteriores debido a la falta de información semántica y porque los diseñadores no pueden cambiar y modificar directamente los contenidos creados en las herramientas de creación de BIM.
Un nuevo estudio realizado por investigadores de la Universidad Técnica de Múnich presenta Text2BIM, una arquitectura multiagente basada en LLM. El equipo emplea cuatro agentes basados en LLM con funciones y capacidades específicas que se comunican entre sí a través de texto para hacer realidad la idea central antes mencionada. Propietario del producto Escribe documentos de requisitos completos y mejora las instrucciones para el usuario. arquitecto profesional desarrolla planes de construcción textual basados en el conocimiento arquitectónico, programador analiza los requisitos y códigos para el modelado, y crítico corrige los problemas del modelo sugiriendo formas de optimizar el código. Este enfoque colaborativo garantiza que la idea central de Text2BIM se implemente de manera eficaz y eficiente.
Los LLM pueden pensar naturalmente en las funciones de herramientas creadas manualmente como interfaces API breves y de alto nivel. Debido a la naturaleza típicamente de bajo nivel y de grano fino de las API nativas del software de creación de BIM, cada herramienta encapsula la lógica de fusionar varias funciones API invocables para realizar su tarea. La herramienta puede abordar trabajos de modelado con precisión y al mismo tiempo evitar la complejidad y el tedio de las llamadas API de bajo nivel al incorporar criterios de diseño precisos y lógica de ingeniería. Sin embargo, no es fácil construir funcionalidades de herramientas genéricas para manejar diferentes situaciones de construcción.
Los investigadores utilizaron enfoques de análisis cuantitativos y cualitativos para determinar qué funciones de la herramienta incorporar para superar este desafío. Comenzaron por observar los archivos de registro de los usuarios para saber qué comandos (herramientas) utilizan con más frecuencia los diseñadores humanos cuando trabajan con software de creación de BIM. Utilizaron los datos de registro de un solo día recopilados de 1000 usuarios anónimos del programa de diseño Vectorworks en todo el mundo, que incluían alrededor de 25 millones de registros en siete idiomas. Los cincuenta comandos más utilizados se recuperan una vez que se limpian y filtran los datos sin procesar, lo que garantiza que el marco Text2BIM esté diseñado teniendo en cuenta las necesidades y preferencias del usuario.
Para facilitar el desarrollo de funcionalidades específicas de la herramienta, omitieron los comandos controlados principalmente por el mouse y, en naranja, enfatizaron los comandos de modelado genéricos del gráfico que se pueden implementar a través de API. Los investigadores examinaron la herramienta de programación gráfica incorporada de Vectorworks, Marionette, comparable a Dynamo/Grasshopper. Estos sistemas de scripts visuales a menudo ofrecen versiones encapsuladas de las API subyacentes que se ajustan a ciertas circunstancias. Los nodos o baterías con los que trabajan los diseñadores brindan una interfaz de programación más intuitiva y de nivel superior. Los proveedores de software clasifican los nodos predeterminados según sus capacidades para facilitar la comprensión y la utilización por parte de los diseñadores. Con un objetivo similar, el equipo utilizó estos nodos en la categoría “BIM” porque el caso de uso produce modelos BIM convencionales.
Los investigadores pudieron crear un prototipo de software interactivo basado en la arquitectura incorporando el marco sugerido en Vectorworks, una herramienta de creación de BIM. La plantilla de complemento de paleta web de código abierto de Vectorworks fue la base para su implementación. Utilizando Vue.js y un entorno web creado en Chromium Embedded Framework (CEF), se incorporó una interfaz web dinámica en Vectorworks utilizando tecnologías de frontend modernas. Esto les permitió crear una paleta web que es fácil de usar y comprender. La lógica de la paleta web se crea utilizando funciones de C++ y el backend es una aplicación de C++ que permite definir y exponer funciones JavaScript asincrónicas dentro de un marco web.
La evaluación se lleva a cabo utilizando indicaciones (instrucciones) para el usuario de prueba y comparando el resultado de diferentes LLM, como GPT-4o, Mistral-Large-2 y Gemini-1.5-Pro. Además, se prueba la capacidad del marco para producir diseños en contextos abiertos omitiendo deliberadamente algunas restricciones de construcción de las indicaciones de prueba. Para tener en cuenta la naturaleza aleatoria de los modelos generativos, ejecutaron cada pregunta de prueba en cada LLM cinco veces, lo que produjo 391 modelos IFC (incluidos los resultados intermedios de optimización). Los hallazgos muestran que el método crea con éxito modelos de construcción que están bien estructurados y son lógicamente consistentes con las ideas abstractas especificadas por el usuario.
El objetivo de este trabajo es generar modelos de construcción regulares durante la etapa inicial de diseño. Los modelos producidos simplemente incorporan elementos estructurales necesarios como paredes, losas, techos, puertas y ventanas y datos semánticos indicativos como narrativas, ubicaciones y descripciones de materiales. Este trabajo facilita una expresión intuitiva de la intención del diseño al liberar a los diseñadores de la monotonía de los comandos de modelado recurrentes. El equipo cree que el usuario siempre puede volver a la herramienta de creación de BIM y cambiar los modelos generados, logrando un equilibrio entre la automatización y la autonomía técnica.
Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit de más de 48 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Dhanshree Shenwai es ingeniera informática y tiene una amplia experiencia en empresas de tecnología financiera que abarcan los ámbitos financiero, de tarjetas y pagos y bancario, y está muy interesada en las aplicaciones de la inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual, facilitando la vida de todos.