¿Por qué los humanos desarrollaron los ojos que tenemos hoy?
Si bien los científicos no pueden retroceder en el tiempo para estudiar las presiones ambientales que dieron forma a la evolución de los diversos sistemas de visión que existen en la naturaleza, un nuevo marco computacional desarrollado por investigadores del MIT les permite explorar esta evolución en agentes de inteligencia artificial.
El marco que desarrollaron, en el que los agentes de IA encarnados desarrollan ojos y aprenden a ver a lo largo de muchas generaciones, es como una “caja de arena científica” que permite a los investigadores recrear diferentes árboles evolutivos. El usuario hace esto cambiando la estructura del mundo y las tareas que completan los agentes de IA, como encontrar comida o diferenciar objetos.
Esto les permite estudiar por qué un animal puede haber desarrollado parches simples y sensibles a la luz como ojos, mientras que otro tiene ojos complejos tipo cámara.
Los experimentos de los investigadores con este marco muestran cómo las tareas impulsaron la evolución ocular en los agentes. Por ejemplo, descubrieron que las tareas de navegación a menudo conducían a la evolución de ojos compuestos con muchas unidades individuales, como los ojos de insectos y crustáceos.
Por otro lado, si los agentes se centraban en la discriminación de objetos, era más probable que desarrollaran ojos tipo cámara con iris y retina.
Este marco podría permitir a los científicos investigar preguntas hipotéticas sobre sistemas de visión que son difíciles de estudiar experimentalmente. También podría guiar el diseño de nuevos sensores y cámaras para robots, drones y dispositivos portátiles que equilibren el rendimiento con limitaciones del mundo real como la eficiencia energética y la capacidad de fabricación.
“Aunque nunca podremos volver atrás y descubrir cada detalle de cómo tuvo lugar la evolución, en este trabajo hemos creado un entorno donde podemos, en cierto sentido, recrear la evolución y explorar el entorno de todas estas maneras diferentes. Este método de hacer ciencia abre la puerta a muchas posibilidades”, dice Kushagra Tiwary, estudiante de posgrado en el MIT Media Lab y coautor principal de un artículo sobre esta investigación.
En el artículo lo acompañan el coautor principal y compañero de estudios de posgrado Aaron Young; el estudiante de posgrado Tzofi Klinghoffer; el ex postdoctorado Akshat Dave, que ahora es profesor asistente en la Universidad Stony Brook; Tomaso Poggio, profesor Eugene McDermott en el Departamento de Cerebro y Ciencias Cognitivas, investigador del Instituto McGovern y codirector del Centro para Cerebros, Mentes y Máquinas; Los coautores principales Brian Cheung, postdoctorado en el Centro para Cerebros, Mentes y Máquinas y profesor asistente entrante en la Universidad de California en San Francisco; y Ramesh Raskar, profesor asociado de artes y ciencias de los medios y líder del Camera Culture Group en el MIT; así como otros en la Universidad Rice y la Universidad de Lund. La investigación aparece hoy en Science Advances.
Construyendo una caja de arena científica
El artículo comenzó como una conversación entre investigadores sobre el descubrimiento de nuevos sistemas de visión que podrían ser útiles en diferentes campos, como la robótica. Para probar sus preguntas de “qué pasaría si”, los investigadores decidieron utilizar la IA para explorar las numerosas posibilidades evolutivas.
“Las preguntas hipotéticas me inspiraron cuando era niño para estudiar ciencias. Con la IA, tenemos una oportunidad única de crear estos agentes encarnados que nos permiten hacer el tipo de preguntas que normalmente serían imposibles de responder”, dice Tiwary.
Para construir esta caja de arena evolutiva, los investigadores tomaron todos los elementos de una cámara, como sensores, lentes, aperturas y procesadores, y los convirtieron en parámetros que un agente de IA incorporado podría aprender.
Usaron esos bloques de construcción como punto de partida para un mecanismo de aprendizaje algorítmico que un agente usaría a medida que evolucionara sus ojos con el tiempo.
“No podíamos simular todo el universo átomo por átomo. Fue un desafío determinar qué ingredientes necesitábamos, qué ingredientes no necesitábamos y cómo asignar recursos entre esos diferentes elementos”, dice Cheung.
En su marco, este algoritmo evolutivo puede elegir qué elementos evolucionar en función de las limitaciones del entorno y la tarea del agente.
Cada entorno tiene una única tarea, como navegación, identificación de alimentos o seguimiento de presas, diseñada para imitar tareas visuales reales que los animales deben superar para sobrevivir. Los agentes comienzan con un único fotorreceptor que mira al mundo y un modelo de red neuronal asociado que procesa información visual.
Luego, a lo largo de la vida de cada agente, se le entrena utilizando el aprendizaje por refuerzo, una técnica de prueba y error en la que el agente es recompensado por lograr el objetivo de su tarea. El entorno también incorpora restricciones, como una cierta cantidad de píxeles para los sensores visuales de un agente.
“Estas limitaciones impulsan el proceso de diseño, de la misma manera que tenemos limitaciones físicas en nuestro mundo, como la física de la luz, que han impulsado el diseño de nuestros propios ojos”, dice Tiwary.
A lo largo de muchas generaciones, los agentes desarrollan diferentes elementos de sistemas de visión que maximizan las recompensas.
Su marco utiliza un mecanismo de codificación genética para imitar computacionalmente la evolución, donde genes individuales mutan para controlar el desarrollo de un agente.
Por ejemplo, los genes morfológicos capturan cómo el agente ve el entorno y controlan la ubicación de los ojos; los genes ópticos determinan cómo interactúa el ojo con la luz y dictan la cantidad de fotorreceptores; y los genes neuronales controlan la capacidad de aprendizaje de los agentes.
Probando hipótesis
Cuando los investigadores realizaron experimentos en este marco, descubrieron que las tareas tenían una influencia importante en los sistemas de visión que evolucionaban los agentes.
Por ejemplo, los agentes que se centraban en tareas de navegación desarrollaron ojos diseñados para maximizar la conciencia espacial a través de sensores de baja resolución, mientras que los agentes encargados de detectar objetos desarrollaron ojos centrados más en la agudeza frontal que en la visión periférica.
Otro experimento indicó que un cerebro más grande no siempre es mejor cuando se trata de procesar información visual. Solo una cantidad limitada de información visual puede ingresar al sistema a la vez, en función de limitaciones físicas como la cantidad de fotorreceptores en los ojos.
“En algún momento, un cerebro más grande no ayuda en absoluto a los agentes, y en la naturaleza eso sería un desperdicio de recursos”, dice Cheung.
En el futuro, los investigadores quieren utilizar este simulador para explorar los mejores sistemas de visión para aplicaciones específicas, lo que podría ayudar a los científicos a desarrollar sensores y cámaras para tareas específicas. También quieren integrar los LLM en su marco para que sea más fácil para los usuarios hacer preguntas “qué pasaría si” y estudiar posibilidades adicionales.
“Existe un beneficio real al hacer preguntas de una manera más imaginativa. Espero que esto inspire a otros a crear marcos más amplios, donde en lugar de centrarse en preguntas específicas que cubren un área específica, busquen responder preguntas con un alcance mucho más amplio”, dice Cheung.
Este trabajo fue apoyado, en parte, por el Centro para Cerebros, Mentes y Máquinas y el programa de Matemáticas para el Descubrimiento de Algoritmos y Arquitecturas (DIAL) de la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA).