Los investigadores de la Universidad Purdue han desarrollado un enfoque novedoso, el análisis de datos topológicos basado en gráficos (GTDA), para simplificar la interpretación de modelos predictivos complejos como las redes neuronales profundas. Estos modelos a menudo plantean desafíos en cuanto a comprensión y generalización. GTDA utiliza análisis de datos topológicos para transformar complejos paisajes de predicción en mapas topológicos simplificados.
A diferencia de los métodos tradicionales como tSNE y UMAP, GTDA proporciona una inspección más específica de los resultados del modelo. El método implica la construcción de una red Reeb, una discretización de estructuras topológicas, para simplificar los datos respetando la topología. Basado en el algoritmo del mapeador, este procedimiento recursivo de división y fusión construye una aproximación discreta del gráfico de Reeb. GTDA comienza con un gráfico que representa las relaciones entre puntos de datos y utiliza lentes, como matrices de predicción de redes neuronales, para guiar el análisis. La estrategia de división recursiva ayuda a construir contenedores en el espacio multidimensional.
GTDA utiliza un modelo basado en transformadores, Enformer, diseñado para predecir niveles de expresión genética basados en secuencias de ADN. El análisis de mutaciones dañinas en el gen BRCA1 demostró la capacidad de GTDA para resaltar características biológicamente relevantes. GTDA mostró la localización de predicciones en la secuencia de ADN y proporcionó información sobre el impacto de las mutaciones en regiones genéticas específicas.
El marco GTDA también ofrece estimación automática del error, superando la incertidumbre del modelo en ciertos casos. El análisis de un conjunto de datos de radiografías de tórax reveló anotaciones de diagnóstico incorrectas, lo que enfatiza el potencial de GTDA para identificar errores en conjuntos de datos de aprendizaje profundo. El método se aplicó además a un modelo ResNet50 previamente entrenado en el conjunto de datos Imagenette, proporcionando una taxonomía visual de imágenes y descubriendo puntos de datos mal etiquetados. La escalabilidad de GTDA quedó demostrada analizando más de un millón de imágenes en ImageNet, en aproximadamente 7,24 horas.
Los investigadores compararon GTDA con métodos tradicionales como tSNE y UMAP en diferentes conjuntos de datos, lo que demuestra la eficacia de GTDA a la hora de proporcionar información detallada. El método también se aplicó para estudiar el diagnóstico por rayos X de tórax y comparar marcos de aprendizaje profundo, lo que demuestra su versatilidad. GTDA ofrece una solución prometedora a los desafíos de interpretar modelos predictivos complejos. Su capacidad para simplificar paisajes topológicos proporciona información detallada sobre los mecanismos de predicción y facilita la identificación de características biológicamente relevantes. La escalabilidad y aplicabilidad del método a diversos conjuntos de datos lo convierten en una herramienta valiosa para comprender y mejorar los modelos de predicción en diversos dominios.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, Grupo LinkedIny Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.