Screenshot 2024 05 07 At 1.46.15 Am.png

Los avances recientes en IA generativa y enormes modelos de lenguaje, visión y multimodales pueden ser la base para el conocimiento, la inferencia y las capacidades de generación de dominio abierto, permitiendo escenarios abiertos de ayuda para tareas. La capacidad de producir instrucciones y contenidos pertinentes es sólo el comienzo de lo que se necesita para construir sistemas de IA que funcionen con humanos en el mundo real. Esto incluye asistentes de tareas de realidad mixta, robots interactivos, plantas de fabricación inteligentes, vehículos autónomos y muchos más.

Los sistemas de inteligencia artificial deben percibir y razonar continuamente de forma multimodal en un flujo sobre su entorno para trabajar sin problemas con los humanos en el mundo real. Este criterio se extiende más allá de la detección y seguimiento de objetos. Para que el trabajo físico en equipo tenga éxito, todos los involucrados deben ser conscientes de las funciones potenciales de los objetos, sus relaciones entre sí, las limitaciones espaciales y cómo estos factores cambian con el tiempo.

Estos sistemas deben poder razonar no sólo sobre el mundo físico sino también sobre los humanos. En este razonamiento deberían incluirse juicios sobre los estados cognitivos y las normas sociales del comportamiento colaborativo en tiempo real, además de los juicios de nivel inferior sobre la postura corporal, la voz y las acciones.

Utilizando una combinación de tecnologías de realidad mixta e inteligencia artificial, como grandes modelos de lenguaje y visión, Microsoft Research presenta SIGMA. Este programa interactivo puede usar HoloLens 2 para guiar a los usuarios a través de tareas de procedimiento. Se puede utilizar un modelo de lenguaje grande, como GPT-4, o un conjunto de etapas definidas manualmente en una biblioteca de tareas para crear tareas dinámicamente. Cuando un usuario hace a SIGMA una pregunta abierta durante la interacción, el sistema puede utilizar su extenso modelo de lenguaje para proporcionar una respuesta. Para colmo, SIGMA puede localizar y resaltar objetos relevantes para la tarea en el campo de visión del usuario utilizando modelos de visión como Detic y SEEM.

Varias opciones de diseño respaldan estos objetivos de investigación. Un ejemplo de la implementación del sistema es una arquitectura cliente-servidor. El dispositivo HoloLens 2 ejecuta una aplicación cliente liviana que transmite múltiples flujos de datos multimodales a un servidor de escritorio más potente. Estas transmisiones incluyen información RGB (rojo, verde y azul), profundidad, audio, seguimiento de la cabeza, las manos y la mirada. Las aplicaciones cliente reciben datos e instrucciones del servidor de escritorio sobre cómo mostrar contenido en el dispositivo, que ejecuta la funcionalidad básica de la aplicación. Al utilizar este diseño, los investigadores pueden ir más allá de los límites informáticos actuales de los auriculares y abrir la puerta a posibilidades para expandir el programa a dispositivos adicionales de realidad mixta.

La arquitectura de código abierto conocida como Plataforma para la Inteligencia Situada (psi) es la base de SIGMA y permite desarrollar e investigar sistemas de IA integrados multimodales. El marco subyacente \psi proporciona una infraestructura de registro y transmisión de alto rendimiento, que también permite la creación rápida de prototipos. La infraestructura de reproducción de datos del marco hace posible el desarrollo y ajuste a nivel de aplicaciones basados ​​en datos. Finalmente, existe una gran cantidad de soporte para visualización, depuración, ajuste y mantenimiento en Platform for Sulated Intelligence Studio.

Si bien la funcionalidad actual de SIGMA carece de sofisticación, sirve como base para futuras investigaciones sobre la convergencia de la realidad mixta y la inteligencia artificial. Muchos temas de investigación, en particular la percepción, pueden y han sido explorados utilizando conjuntos de datos recopilados. Estos problemas van desde la visión por computadora hasta el reconocimiento de voz.

Como ejemplo de la continua dedicación de Microsoft al campo, SIGMA es una plataforma de investigación. Es representativo de los esfuerzos de la empresa por investigar nuevas tecnologías de inteligencia artificial y realidad mixta. Dynamics 365 Guides es otra solución de realidad mixta preparada para empresas que Microsoft ofrece a los empleados de primera línea. Los empleados de primera línea reciben asistencia procesal paso a paso e información relevante en el flujo de trabajo con Copilot en Dynamics 365 Guides, que los clientes utilizan actualmente en versión preliminar privada. La IA y la realidad mixta trabajan juntas para hacer esto posible. Los usuarios empresariales pueden beneficiarse enormemente de Dynamics 365 Guides, una herramienta rica en funciones diseñada para trabajadores de primera línea que ejecutan operaciones difíciles.

Al hacer que el sistema esté disponible públicamente, los investigadores esperan aliviar las cargas de otros investigadores asociadas con las tareas fundamentales de ingeniería de crear una aplicación interactiva completa para que puedan avanzar directamente hacia las nuevas y apasionantes fronteras de su campo.


Revisar la Detalles y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 41k+ ML


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.