Un estudio reciente de la Universidad Estatal de Oregón estimó que más de 3.500 especies animales están en riesgo de extinción debido a factores que incluyen alteraciones del hábitat, sobreexplotación de los recursos naturales y cambio climático.
Para comprender mejor estos cambios y proteger la vida silvestre vulnerable, conservacionistas como Justin Kay, estudiante de doctorado del MIT e investigador del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), están desarrollando algoritmos de visión por computadora que monitorean cuidadosamente las poblaciones de animales. Miembro del laboratorio de Sara Beery, profesora asistente del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT e investigadora principal de CSAIL, Kay está trabajando actualmente en el seguimiento del salmón en el noroeste del Pacífico, donde proporciona nutrientes cruciales a depredadores como aves y osos, mientras gestiona la población de presas, como insectos.
Sin embargo, con todos esos datos sobre la vida silvestre, los investigadores tienen mucha información para clasificar y muchos modelos de IA para elegir para analizarlo todo. Kay y sus colegas de CSAIL y la Universidad de Massachusetts Amherst están desarrollando métodos de IA que hacen que este proceso de procesamiento de datos sea mucho más eficiente, incluido un nuevo enfoque llamado “selección de modelo activo basada en consenso” (o “CODA”) que ayuda a los conservacionistas a elegir qué modelo de IA usar. Su trabajo fue nombrado artículo destacado en la Conferencia Internacional sobre Visión por Computador (ICCV) en octubre.
Esa investigación fue apoyada, en parte, por la Fundación Nacional de Ciencias, el Consejo de Investigación de Ingeniería y Ciencias Naturales de Canadá y el Laboratorio de Sistemas de Agua y Alimentos Abdul Latif Jameel (J-WAFS). Aquí, Kay analiza este proyecto, entre otros esfuerzos de conservación.
P: En su artículo, plantea la pregunta de qué modelos de IA funcionarán mejor en un conjunto de datos en particular. Con hasta 1,9 millones de modelos previamente entrenados disponibles solo en el repositorio de HuggingFace Models, ¿cómo nos ayuda CODA a abordar ese desafío?
R: Hasta hace poco, utilizar la IA para el análisis de datos normalmente implicaba entrenar su propio modelo. Esto requiere un esfuerzo significativo para recopilar y anotar un conjunto de datos de entrenamiento representativo, así como entrenar y validar modelos de forma iterativa. También necesita un cierto conjunto de habilidades técnicas para ejecutar y modificar el código de entrenamiento de IA. Sin embargo, la forma en que las personas interactúan con la IA está cambiando; en particular, ahora hay millones de modelos previamente entrenados disponibles públicamente que pueden realizar muy bien una variedad de tareas predictivas. Potencialmente, esto permite a las personas utilizar la IA para analizar sus datos sin desarrollar su propio modelo, simplemente descargando un modelo existente con las capacidades que necesitan. Pero esto plantea un nuevo desafío: ¿qué modelo, de los millones disponibles, deberían utilizar para analizar sus datos?
Normalmente, responder a esta pregunta sobre la selección de modelos también requiere dedicar mucho tiempo a recopilar y anotar un gran conjunto de datos, aunque sea para probar modelos en lugar de entrenarlos. Esto es especialmente cierto para aplicaciones reales donde las necesidades de los usuarios son específicas, las distribuciones de datos están desequilibradas y cambian constantemente, y el rendimiento del modelo puede ser inconsistente entre las muestras. Nuestro objetivo con CODA era reducir sustancialmente este esfuerzo. Hacemos esto haciendo que el proceso de anotación de datos esté “activo”. En lugar de exigir a los usuarios que realicen anotaciones masivas en un gran conjunto de datos de prueba de una sola vez, en la selección activa de modelos hacemos que el proceso sea interactivo, guiando a los usuarios para que anoten los puntos de datos más informativos en sus datos sin procesar. Esto es notablemente efectivo y a menudo requiere que los usuarios anoten tan solo 25 ejemplos para identificar el mejor modelo de su conjunto de candidatos.
Estamos muy entusiasmados de que CODA ofrezca una nueva perspectiva sobre cómo utilizar mejor el esfuerzo humano en el desarrollo y la implementación de sistemas de aprendizaje automático (ML). A medida que los modelos de IA se vuelven más comunes, nuestro trabajo enfatiza el valor de centrar el esfuerzo en procesos de evaluación sólidos, en lugar de únicamente en la capacitación.
P: Aplicaste el método CODA para clasificar la vida silvestre en imágenes. ¿Por qué funcionó tan bien y qué papel pueden tener sistemas como este en el seguimiento de los ecosistemas en el futuro?
R: Una idea clave fue que al considerar una colección de modelos de IA candidatos, el consenso de todas sus predicciones es más informativo que las predicciones de cualquier modelo individual. Esto puede verse como una especie de “sabiduría de la multitud”: en promedio, agrupar los votos de todos los modelos le da una buena idea de cuáles deberían ser las etiquetas de los puntos de datos individuales en su conjunto de datos sin procesar. Nuestro enfoque con CODA se basa en estimar una “matriz de confusión” para cada modelo de IA: dada la verdadera etiqueta para algún punto de datos es clase X, ¿cuál es la probabilidad de que un modelo individual prediga la clase X, Y o Z? Esto crea dependencias informativas entre todos los modelos candidatos, las categorías que desea etiquetar y los puntos sin etiquetar en su conjunto de datos.
Considere una aplicación de ejemplo en la que usted es un ecologista de vida silvestre que acaba de recopilar un conjunto de datos que contiene potencialmente cientos de miles de imágenes de cámaras instaladas en la naturaleza. Quiere saber qué especies hay en estas imágenes, una tarea que requiere mucho tiempo y que los clasificadores de visión por computadora pueden ayudar a automatizar. Está intentando decidir qué modelo de clasificación de especies ejecutar con sus datos. Si hasta ahora ha etiquetado 50 imágenes de tigres y algún modelo ha funcionado bien en esas 50 imágenes, puede estar bastante seguro de que también funcionará bien en el resto de las imágenes de tigres (actualmente sin etiquetar) en su conjunto de datos sin procesar. También sabe que cuando ese modelo predice que alguna imagen contiene un tigre, es probable que sea correcto y, por lo tanto, es más probable que cualquier modelo que prediga una etiqueta diferente para esa imagen sea incorrecto. Puede utilizar todas estas interdependencias para construir estimaciones probabilísticas de la matriz de confusión de cada modelo, así como una distribución de probabilidad sobre qué modelo tiene la mayor precisión en el conjunto de datos general. Estas opciones de diseño nos permiten tomar decisiones más informadas sobre qué puntos de datos etiquetar y, en última instancia, son la razón por la cual CODA realiza la selección de modelos de manera mucho más eficiente que el trabajo anterior.
También hay muchas posibilidades interesantes para desarrollar nuestro trabajo. Creemos que puede haber formas incluso mejores de construir antecedentes informativos para la selección de modelos basados en la experiencia en el dominio; por ejemplo, si ya se sabe que un modelo funciona excepcionalmente bien en algún subconjunto de clases o mal en otras. También existen oportunidades para ampliar el marco para admitir tareas de aprendizaje automático más complejas y modelos probabilísticos de desempeño más sofisticados. Esperamos que nuestro trabajo pueda proporcionar inspiración y un punto de partida para que otros investigadores sigan impulsando los últimos avances.
P: Usted trabaja en Beerylab, dirigido por Sara Beery, donde los investigadores combinan las capacidades de reconocimiento de patrones de algoritmos de aprendizaje automático con tecnología de visión por computadora para monitorear la vida silvestre. ¿De qué otras maneras su equipo rastrea y analiza el mundo natural, más allá de CODA?
R: El laboratorio es un lugar realmente interesante para trabajar y constantemente surgen nuevos proyectos. Tenemos proyectos en curso que monitorean los arrecifes de coral con drones, reidentifican elefantes individuales con el tiempo y fusionan datos de observación de la Tierra multimodales de satélites y cámaras in situ, solo por nombrar algunos. En términos generales, analizamos las tecnologías emergentes para el monitoreo de la biodiversidad y tratamos de comprender dónde están los obstáculos en el análisis de datos y desarrollar nuevos enfoques de visión por computadora y aprendizaje automático que aborden esos problemas de una manera ampliamente aplicable. Es una forma interesante de abordar problemas que en cierto modo se centran en las “metapreguntas” que subyacen a los desafíos de datos particulares que enfrentamos.
Los algoritmos de visión por computadora en los que he trabajado que cuentan la migración de salmones en videos de sonar submarino son ejemplos de ese trabajo. A menudo nos enfrentamos a distribuciones de datos cambiantes, incluso cuando intentamos construir los conjuntos de datos de entrenamiento más diversos que podamos. Siempre encontramos algo nuevo cuando implementamos una cámara nueva y esto tiende a degradar el rendimiento de los algoritmos de visión por computadora. Este es un ejemplo de un problema general en el aprendizaje automático llamado adaptación de dominio, pero cuando intentamos aplicar algoritmos de adaptación de dominio existentes a nuestros datos de pesca, nos dimos cuenta de que había serias limitaciones en la forma en que se entrenaban y evaluaban los algoritmos existentes. Pudimos desarrollar un nuevo marco de adaptación de dominio, publicado a principios de este año en Transactions on Machine Learning Research, que abordó estas limitaciones y condujo a avances en el conteo de peces, e incluso en el análisis de naves espaciales y de conducción autónoma.
Una línea de trabajo que me entusiasma especialmente es comprender cómo desarrollar y analizar mejor el rendimiento de los algoritmos predictivos de aprendizaje automático en el contexto de para qué se utilizan realmente. Por lo general, los resultados de algún algoritmo de visión por computadora (por ejemplo, cuadros delimitadores alrededor de animales en imágenes) no son en realidad lo que le importa a la gente, sino más bien un medio para responder a un problema mayor: digamos, ¿qué especies viven aquí y cómo está cambiando eso con el tiempo? Hemos estado trabajando en métodos para analizar el rendimiento predictivo en este contexto y reconsiderar las formas en que incorporamos la experiencia humana a los sistemas de aprendizaje automático con esto en mente. CODA fue un ejemplo de esto, donde demostramos que en realidad podíamos considerar los modelos de ML como fijos y construir un marco estadístico para comprender su desempeño de manera muy eficiente. Hemos estado trabajando recientemente en análisis integrados similares que combinan predicciones de ML con procesos de predicción de múltiples etapas, así como modelos estadísticos ecológicos.
El mundo natural está cambiando a ritmos y escalas sin precedentes, y poder pasar rápidamente de hipótesis científicas o preguntas de gestión a respuestas basadas en datos es más importante que nunca para proteger los ecosistemas y las comunidades que dependen de ellos. Los avances en IA pueden desempeñar un papel importante, pero debemos pensar críticamente sobre las formas en que diseñamos, entrenamos y evaluamos algoritmos en el contexto de estos desafíos tan reales.