El algoritmo tardó dos días y medio en hacer lo que a los astrónomos humanos les habría llevado años, tal vez décadas. Al rastrear casi 100 millones de imágenes del Telescopio Espacial Hubble de la NASA, la red neuronal marcó galaxias que parecían, bueno, incorrectas. Las galaxias se retorcieron formando signos de interrogación. Galaxias con halos de luz distorsionada. Galaxias que parecían estar derramando corrientes de estrellas hacia el espacio. Más de 1.300 rarezas cósmicas en total, y la mayoría de ellas, más de 800, de alguna manera habían pasado desapercibidas en 35 años de observaciones del Hubble.
David O’Ryan y Pablo Gómez, ambos de la Agencia Espacial Europea, inicialmente no buscaban tal colección de animales. Se habían propuesto encontrar discos protoplanetarios de canto, esos raros sistemas con “forma de hamburguesa” donde podemos observar el plano de un sistema solar en formación. Comenzaron su búsqueda de IA con sólo tres ejemplos; Tres pequeñas agujas para encontrar en un pajar de 100 millones de imágenes.
Pero su algoritmo, al que llaman AnomalyMatch, tenía otras ideas. Durante sus carreras de entrenamiento, siguió señalando cosas que no eran discos protoplanetarios en absoluto. Galaxias en medio de una colisión, con sus brazos espirales destrozados en corrientes de marea. Lentes gravitacionales donde galaxias masivas en primer plano deforman el espacio-tiempo lo suficiente como para manchar las galaxias del fondo en arcos y anillos. Galaxias medusas con tentáculos de gas fluyendo detrás de ellas mientras atraviesan densos cúmulos galácticos.
O’Ryan y Gómez decidieron seguir hacia donde los llevaba el algoritmo. Ampliaron su conjunto de entrenamiento para incluir estos descubrimientos fortuitos (fusiones, lentes, medusas) y dejaron que AnomalyMatch accediera al archivo completo. “Las observaciones de archivo del Telescopio Espacial Hubble abarcan ahora 35 años y ofrecen un rico conjunto de datos en el que se pueden ocultar anomalías astrofísicas”, dice O’Ryan. Estaban ocultos, pero tal vez ya no.
El botín es sustancial. A partir de sus detecciones mejor clasificadas, el equipo confirmó 629 fusiones o interacciones de galaxias, 140 lentes gravitacionales candidatas, 35 galaxias medusas despojadas de su gas y esos esquivos discos protoplanetarios de borde que habían buscado originalmente, aunque solo dos más de lo que ya se conocía. Varias docenas de objetos desafiaron por completo la clasificación, ya que sus morfologías eran tan extrañas que no encajaban en las categorías existentes.
Lo que hace que esto sea impresionante no son sólo los números, sino también la eficiencia. Entrenar la red neuronal en 1.400 imágenes etiquetadas y aproximadamente 99.000 sin etiquetar tomó menos de cuatro horas en una unidad de procesamiento de gráficos. Escanear los 100 millones de recortes del archivo del Hubble tomó sólo dos días y medio. Y alrededor del 65 por ciento de las anomalías identificadas por el algoritmo nunca habían aparecido antes en la literatura científica, a pesar de que el Hubble es uno de los conjuntos de datos astronómicos más examinados que existen.
El enfoque llena un vacío peculiar en la forma en que buscamos rarezas cósmicas. Los métodos tradicionales se basan en que astrónomos expertos examinen manualmente imágenes o se topen con rarezas durante observaciones no relacionadas. Eso funciona cuando los conjuntos de datos son manejables, pero el Hubble ha estado tomando fotografías durante más de tres décadas. Los proyectos de ciencia ciudadana ayudan. Galaxy Zoo y esfuerzos similares han reclutado miles de voluntarios para clasificar galaxias, pero todavía no pueden seguir el ritmo de archivos tan vastos, y mucho menos de lo que viene a continuación.
Porque la avalancha de datos apenas comienza. La misión Euclid de la ESA, el próximo telescopio espacial Nancy Grace Roman de la NASA y el Observatorio Vera C. Rubin generarán terabytes de imágenes cada noche. Nunca hemos tenido tal volumen de datos de observación en la historia de la astronomía, y los ojos humanos, incluso miles de ellos, simplemente no pueden revisarlos todos.
AnomalyMatch evita esa limitación mediante el aprendizaje semisupervisado. A diferencia de los enfoques tradicionales de IA que necesitan enormes conjuntos de entrenamiento de ejemplos preetiquetados, aprende de una pequeña cantidad de anomalías junto con vastos conjuntos de datos sin etiquetar. El algoritmo asigna a cada imagen una “puntuación de anomalía” entre cero y uno, luego O’Ryan y Gómez revisan los candidatos con la puntuación más alta para confirmar los descubrimientos reales. Ese enfoque humano en el circuito permite que el conocimiento experto guíe el aprendizaje de la IA, mientras la IA maneja el tedioso trabajo de escanear millones de imágenes.
El método también es notablemente flexible. O’Ryan y Gómez no tuvieron que entrenar algoritmos separados para cada tipo de anomalía. Una sola red aprendió a reconocer las “rarezas” en general, señalando lentes gravitacionales, fusiones y galaxias medusas, aunque inicialmente se entrenó solo en discos protoplanetarios. Algunos descubrimientos los sorprendieron. Encontraron cuásares con lentes, esas raras configuraciones de Cruz de Einstein en las que un cuásar de fondo se divide en cuatro puntos brillantes alrededor de una galaxia en primer plano, a pesar de nunca entrenar el algoritmo en tales objetos.
Esa adaptabilidad es importante porque no siempre sabemos lo que buscamos. Los descubrimientos más interesantes en astronomía a menudo provienen de encontrar cosas que no esperábamos encontrar. Un algoritmo que puede detectar “anómalos” sin que se le diga exactamente qué significa anómalo podría detectar fenómenos que ni siquiera hemos pensado en buscar todavía.
“Esta es una poderosa demostración de cómo la IA puede mejorar el rendimiento científico de los conjuntos de datos de archivo”, afirma Gómez. El archivo del Hubble no es sólo un registro histórico: es un recurso activo para el descubrimiento, con tesoros aún enterrados en observaciones de décadas de antigüedad. Y el Hubble no es el único. Cada telescopio importante genera archivos que exceden ampliamente nuestra capacidad para analizarlos en su totalidad.
El equipo utilizó la plataforma Datalabs de la ESA, que brinda a los investigadores acceso directo a los archivos del telescopio sin necesidad de descargas masivas de datos. Esa ventaja de la infraestructura era importante: sin ella, manejar 100 millones de imágenes habría sido prohibitivamente lento. A medida que las herramientas de inteligencia artificial como AnomalyMatch se conviertan en estándar, ese tipo de infraestructura computacional será esencial.
No todo lo que el algoritmo marcó resultó ser científicamente interesante, eso sí. La tasa de contaminación (objetos normales clasificados erróneamente como anómalos) fue de alrededor del 10 por ciento. Los campos estelares de densos cúmulos globulares o de la galaxia de Andrómeda a veces lo engañaban. Algunos objetos con puntuación alta eran demasiado pequeños o demasiado ruidosos para clasificarlos con confianza. Un puñado resultó ser artefactos de imágenes en lugar de estructuras cósmicas reales.
Pero incluso con esa tasa de falsos positivos, la precisión de AnomalyMatch supera lo que es posible con enfoques puramente automatizados. Y los errores también son informativos, ya que ayudan a refinar lo que el algoritmo considera anómalo versus simplemente inusual. A través del entrenamiento iterativo (agregando ejemplos recientemente confirmados al conjunto de entrenamiento), la precisión de la red mejora constantemente.
Lo que es particularmente sorprendente es cuánto ha observado el Hubble sin que los astrónomos se dieran cuenta de lo que tenían. Estas no eran imágenes de rincones abandonados del archivo. Procedían de observaciones convencionales, a menudo de objetivos bien estudiados. Pero las anomalías estaban en el fondo, o en campos adyacentes al objetivo principal, o escondidas a plena vista entre miles de otras galaxias. La atención humana es limitada. Buscamos lo que buscamos y extrañamos el resto.
Ahí es donde la IA sobresale: en encuestas sistemáticas y exhaustivas sin los sesgos de atención que los humanos inevitablemente provocan. El trabajo de O’Ryan y Gómez muestra que incluso los archivos más visitados contienen descubrimientos que esperan ser hechos, si tan solo los miramos con ojos nuevos. O, en este caso, con redes neuronales que no saben qué se supone que deben ignorar.
Las implicaciones se extienden más allá del Hubble. Las observaciones del Telescopio Espacial James Webb, los miles de millones de galaxias de Euclides, los barridos nocturnos de todo el cielo visible del Observatorio Rubin: todo generará archivos de órdenes de magnitud mayores que los que tenemos ahora. Herramientas como AnomalyMatch no sólo ayudarán; serán necesarios. De lo contrario, encontrar fenómenos raros en esa escala de datos es imposible.
Y quizás el aspecto más intrigante sea la categoría desconocida: esas varias docenas de objetos que no encajan en ninguna clasificación existente. ¿Cuáles son? Algunos podrían ser ejemplos extremos de fenómenos conocidos, llevados a límites morfológicos que no hemos visto antes. Otros podrían representar categorías, estructuras cósmicas o procesos genuinamente nuevos que aún no hemos identificado. Sin el escaneo de IA, probablemente no los habríamos encontrado en absoluto. Ahora están sentados en un catálogo, esperando que los astrónomos con la experiencia adecuada descubran qué están mirando exactamente.
El futuro del descubrimiento astronómico podría verse más o menos así: algoritmos de IA escaneando archivos continuamente, señalando anomalías para revisión humana, aprendiendo de cada ronda de validación de expertos, ampliando constantemente nuestros catálogos de fenómenos raros. No es que la IA reemplace a los astrónomos, sino que amplíe su alcance, permitiendo que la experiencia humana se centre en los objetivos más interesantes en lugar de ahogarse en el trabajo rutinario de escanear millones de imágenes.
O’Ryan y Gómez han publicado su catálogo completo de descubrimientos (los 1.339 objetos, completos con coordenadas y clasificaciones) para que los estudie la comunidad astronómica. Eso incluye el 811 que parece ser completamente nuevo para la ciencia. Hay mucho trabajo por delante para aquellos que quieran seguir el rastro de lentes gravitacionales que podrían investigar las distribuciones de materia oscura, o galaxias medusas que revelan cómo se produce la evolución de las galaxias en ambientes densos, o esos objetos misteriosamente inclasificables que podrían estar diciéndonos algo que aún no sabemos cómo escuchar.
Enlace del estudio: https://www.aanda.org/articles/aa/full_html/2025/12/aa55512-25/aa55512-25.html
Aquí no hay muro de pago
Si nuestros informes lo han informado o inspirado, considere hacer una donación. Cada contribución, sin importar el tamaño, nos permite continuar brindando noticias médicas y científicas precisas, atractivas y confiables. El periodismo independiente requiere tiempo, esfuerzo y recursos; su apoyo garantiza que podamos seguir descubriendo las historias que más le importan.
Únase a nosotros para hacer que el conocimiento sea accesible e impactante. ¡Gracias por estar con nosotros!