Imagínese mirando una calle concurrida por unos momentos y luego tratando de dibujar de memoria la escena que vio. La mayoría de la gente podría dibujar las posiciones aproximadas de los objetos principales, como automóviles, personas y cruces de peatones, pero casi nadie puede dibujar cada detalle con una precisión de píxeles perfecta. Lo mismo ocurre con la mayoría de los algoritmos de visión por computadora modernos: son fantásticos para capturar detalles de alto nivel de una escena, pero pierden detalles finos a medida que procesan información.
Ahora, los investigadores del MIT han creado un sistema llamado “hazaña”que permite a los algoritmos capturar todos los detalles de alto y bajo nivel de una escena al mismo tiempo, casi como la cirugía ocular Lasik para visión por computadora.
Cuando las computadoras aprenden a “ver” mirando imágenes y videos, crean “ideas” de lo que hay en una escena a través de algo llamado “características”. Para crear estas características, redes profundas y modelos de base visual dividen las imágenes en una cuadrícula de pequeños cuadrados y procesan estos cuadrados como un grupo para determinar qué sucede en una foto. Cada pequeño cuadrado suele estar formado por entre 16 y 32 píxeles, por lo que la resolución de estos algoritmos es dramáticamente menor que la de las imágenes con las que trabajan. Al intentar resumir y comprender fotografías, los algoritmos pierden mucha claridad de píxeles.
El algoritmo FeatUp puede detener esta pérdida de información y aumentar la resolución de cualquier red profunda sin comprometer la velocidad o la calidad. Esto permite a los investigadores mejorar rápida y fácilmente la resolución de cualquier algoritmo nuevo o existente. Por ejemplo, imaginemos intentar interpretar las predicciones de un algoritmo de detección de cáncer de pulmón con el objetivo de localizar el tumor. La aplicación de FeatUp antes de interpretar el algoritmo utilizando un método como los mapas de activación de clases (CAM) puede producir una vista mucho más detallada (16-32x) de dónde podría ubicarse el tumor según el modelo.
FeatUp no solo ayuda a los profesionales a comprender sus modelos, sino que también puede mejorar una variedad de tareas diferentes como la detección de objetos, la segmentación semántica (asignar etiquetas a píxeles en una imagen con etiquetas de objetos) y la estimación de profundidad. Lo logra proporcionando características más precisas y de alta resolución, que son cruciales para crear aplicaciones de visión que van desde la conducción autónoma hasta las imágenes médicas.
“La esencia de toda visión por computadora radica en estas características profundas e inteligentes que emergen de las profundidades de las arquitecturas de aprendizaje profundo. El gran desafío de los algoritmos modernos es que reducen imágenes grandes a cuadrículas muy pequeñas de características ‘inteligentes’, obteniendo conocimientos inteligentes pero perdiendo los detalles más finos”, dice Mark Hamilton, estudiante de doctorado en ingeniería eléctrica e informática del MIT, MIT Computer Science y afiliado del Laboratorio de Inteligencia Artificial (CSAIL), y coautor principal de un papel sobre el proyecto. “FeatUp ayuda a lograr lo mejor de ambos mundos: representaciones muy inteligentes con la resolución de la imagen original. Estas funciones de alta resolución aumentan significativamente el rendimiento en un espectro de tareas de visión por computadora, desde mejorar la detección de objetos y la predicción de profundidad hasta proporcionar una comprensión más profunda del proceso de toma de decisiones de su red a través de análisis de alta resolución”.
Renacimiento de la resolución
A medida que estos grandes modelos de IA se vuelven cada vez más frecuentes, existe una necesidad cada vez mayor de explicar qué están haciendo, qué están mirando y qué están pensando.
Pero, ¿cómo puede exactamente FeatUp descubrir estos detalles tan finos? Curiosamente, el secreto está en el movimiento y movimiento de las imágenes.
En particular, FeatUp aplica ajustes menores (como mover la imagen unos pocos píxeles hacia la izquierda o hacia la derecha) y observa cómo responde un algoritmo a estos ligeros movimientos de la imagen. Esto da como resultado cientos de mapas de características profundas que son ligeramente diferentes, que se pueden combinar en un único conjunto de características profundas, nítido y de alta resolución. “Imaginamos que existen algunas características de alta resolución y que cuando las meneamos y las difuminamos, coincidirán con todas las características originales de menor resolución de las imágenes movidas. Nuestro objetivo es aprender cómo refinar las características de baja resolución para convertirlas en características de alta resolución usando este ‘juego’ que nos permite saber qué tan bien lo estamos haciendo”, dice Hamilton. Esta metodología es análoga a cómo los algoritmos pueden crear un modelo 3D a partir de múltiples imágenes 2D al garantizar que el objeto 3D predicho coincida con todas las fotos 2D utilizadas para crearlo. En el caso de FeatUp, predicen un mapa de características de alta resolución que es consistente con todos los mapas de características de baja resolución formados al hacer vibrar la imagen original.
El equipo señala que las herramientas estándar disponibles en PyTorch eran insuficientes para sus necesidades e introdujo un nuevo tipo de capa de red profunda en su búsqueda de una solución rápida y eficiente. Su capa personalizada, una operación especial de muestreo bilateral conjunto, fue más de 100 veces más eficiente que una implementación ingenua en PyTorch. El equipo también demostró que esta nueva capa podría mejorar una amplia variedad de algoritmos diferentes, incluida la segmentación semántica y la predicción de profundidad. Esta capa mejoró la capacidad de la red para procesar y comprender detalles de alta resolución, dando a cualquier algoritmo que la utilizara un aumento sustancial de rendimiento.
“Otra aplicación es algo llamado recuperación de objetos pequeños, donde nuestro algoritmo permite una localización precisa de los objetos. Por ejemplo, incluso en escenas de carreteras abarrotadas, los algoritmos enriquecidos con FeatUp pueden ver objetos diminutos como conos de tráfico, reflectores, luces y baches donde fallan sus primos de baja resolución. Esto demuestra su capacidad para mejorar características burdas y convertirlas en señales finamente detalladas”, dice Stephanie Fu ’22, MNG ’23, estudiante de doctorado en la Universidad de California en Berkeley y otra coautora principal del nuevo artículo FeatUp. “Esto es especialmente crítico para tareas urgentes, como identificar una señal de tráfico en una autopista congestionada en un automóvil sin conductor. Esto no sólo puede mejorar la precisión de dichas tareas al convertir conjeturas amplias en localizaciones exactas, sino que también podría hacer que estos sistemas sean más confiables, interpretables y dignos de confianza”.
¿Qué sigue?
En cuanto a las aspiraciones futuras, el equipo enfatiza la posible adopción generalizada de FeatUp dentro de la comunidad de investigación y más allá, similar a las prácticas de aumento de datos. “El objetivo es hacer de este método una herramienta fundamental en el aprendizaje profundo, enriqueciendo los modelos para percibir el mundo con mayor detalle sin la ineficiencia computacional del procesamiento tradicional de alta resolución”, dice Fu.
“FeatUp representa un maravilloso avance para hacer que las representaciones visuales sean realmente útiles, al producirlas con resoluciones de imagen completas”, afirma Noah Snavely, profesor de informática de la Universidad de Cornell, que no participó en la investigación. “Las representaciones visuales aprendidas se han vuelto realmente buenas en los últimos años, pero casi siempre se producen con una resolución muy baja; se puede colocar una bonita foto en resolución completa y obtener una pequeña cuadrícula de características del tamaño de un sello postal. Eso es un problema si desea utilizar esas funciones en aplicaciones que producen resultados de resolución completa. FeatUp resuelve este problema de una manera creativa al combinar ideas clásicas en súper resolución con enfoques de aprendizaje modernos, lo que genera hermosos mapas de características de alta resolución”.
“Esperamos que esta sencilla idea pueda tener una amplia aplicación. Proporciona versiones de alta resolución de análisis de imágenes que antes pensábamos que solo podían ser de baja resolución”, dice el autor principal William T. Freeman, profesor de ingeniería eléctrica y ciencias de la computación del MIT y miembro de CSAIL.
Los autores principales, Fu y Hamilton, están acompañados por los estudiantes de doctorado del MIT Laura Brandt SM ’21 y Axel Feldmann SM ’21, así como por Zhoutong Zhang SM ’21, PhD ’22, todos afiliados actuales o anteriores del MIT CSAIL. Su investigación está respaldada, en parte, por una beca de investigación para graduados de la Fundación Nacional de Ciencias., por la Fundación Nacional de Ciencias y la Oficina del Director de Inteligencia Nacional, por el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y por el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU. El grupo presentará su trabajo en mayo en la Conferencia Internacional sobre Representaciones del Aprendizaje.