Lanzamientos de la NASA Galileo: el modelo multimodal de código abierto que avanza la observación de la tierra y la teledetección

Introducción

Galileo es un modelo de base de código abierto y altamente multimodal desarrollado para procesar, analizar y comprender diversas flujos de datos de observación de la Tierra (EO), incluida la escala óptica, radar, elevación, clima y auxiliar, a escala. Galileo se desarrolla con el apoyo de investigadores de la Universidad McGill, la NASA Harvest AI2, la Universidad de Carleton, la Universidad de Columbia Británica, el Instituto Vectorial y la Universidad Estatal de Arizona. Galileo tiene como objetivo proporcionar una solución generalista unificada para aplicaciones críticas como mapeo de tierras agrícolas, respuesta a desastres y monitoreo ambiental.

A diferencia de los modelos de detección remota anteriores limitados a un solo tipo de datos o escala de datos, Galileo fusiona de manera flexible modalidades de detección múltiples y está diseñado para reconocer fenómenos que van desde objetos pequeños (como barcos de pesca, que miden solo 1 a 2 píxeles) hasta vastas características que cambian lentamente como los glaciares.

Características clave y arquitectura

Diseño de transformador multimodal

Galileo se basa en una arquitectura de transformador de visión (VIT), adaptada meticulosamente para procesar:

  • Imágenes ópticas multiespectrales (por ejemplo, Sentinel-2)
  • Radar de apertura sintética (SAR) (por ejemplo, Sentinel-1)
  • Datos de elevación y pendiente (por ejemplo, NASA SRTM)
  • Datos del clima/clima (por ejemplo, precipitación y temperatura de ERA5)
  • Mapas de cobertura del suelo, población, luz nocturna y más

Manejo de entrada flexible:
La tubería de tokenización de Galileo divide las entradas de detección remota en parches espaciales, times de tiempo y grupos de canales lógicos. Esto permite que el modelo procese imágenes, series de tiempo y datos tabulares estáticos en una sola configuración de arquitectura.

Aprendizaje de características locales y globales unificadas

Una innovación central es el algoritmo de prepertación auto-supervisado de Galileo, que combina:

  • Pérdidas globales: Fomentar la abstracción en contextos espaciales o temporales amplios, ideal para identificar características “grandes” o que cambian lentamente (glaciares, pérdida de bosques).
  • Pérdidas locales: Mejore la sensibilidad a los detalles minuciosos: es importante para detectar objetos pequeños y rápidos (barcos, escombros).

Los objetivos locales y globales difieren en:

  • Profundidad de predicción: Las tareas globales se dirigen a representaciones latentes profundas; Las tareas locales usan funciones poco profundas y proyectadas linealmente.
  • Estrategias de enmascaramiento: Las tareas globales utilizan máscaras de tiempo espacial estructuradas y correlacionadas (forzando predicciones a intervalos grandes); Las tareas locales usan máscaras no estructuradas aleatorias.

Este pretratenamiento de doble objetivo mejora la representación de características a múltiples escala, lo que hace que Galileo se pueda generalizar en todas las tareas y robusta incluso con etiquetas limitadas.

Conjunto de datos y estrategia previa

Para garantizar la diversidad semántica y geográfica, el conjunto de datos previos al pretrerante de Galileo cubre todo el mundo, muestreado a través de un enfoque de agrupación para maximizar la variedad de la cubierta del suelo y la propagación geográfica. El conjunto de datos comprende más de 127,000 muestras alineadas espacio -temporalmente, cada una, incluidas cuatro categorías y nueve tipos de datos de detección remota.

El pretrénero procede para 500 épocas en grandes recursos de cómputo. Aspectos clave:

  • Tamaño de lote: Tamaño de lote efectivo de 512.
  • Aumentos de datos: Volteo, rotación y tamaños de parche variables.
  • Mejoramiento: Adamw con tasa de aprendizaje programada y barridos de descomposición de peso.

Resultados de referencia

Generalización superior

Galileo está en referencia en 11 conjuntos de datos diversos y 15 tareas aguas abajoque abarca la clasificación de la imagen y la serie temporal de píxeles, así como la segmentación. Específicamente, domina en conjuntos de datos públicos como Eurosat, Bigearthnet, SO2SAT, MADOS (escombros marinos), Sen1fLoods11 (mapeo de inundaciones SAR), Croharvest (clasificación de cultivos multimodales) y muchos otros.

Destacados de rendimiento de Galileo-Base (Vit-Base):

  • Clasificación (Finetune):
    • Eurosat: 97.7% (precisión top-1, 100% de datos de entrenamiento)
    • Superación de modelos especializados como Croma (96.6%) y Satmae (96.6%)
  • Píxel Timeseries:
    • Crofarvest (Kenia): 84.2% (Tops Presto y Anysat)
    • Breizhcrops: 73.0%
  • Segmentación (miou):
    • Mados: 67.6%
    • Pastis: 79.4%

Flexibilidad del modelo:
En todos los puntos de referencia, Galileo es el mejor desempeño en general, en general, concluyendo competidores especializados especializados en imágenes y de series de tiempo. En particular, las pequeñas variantes del modelo (Vit-Nano, Vit-Diny) también logran resultados de arriba o cerca, críticas para entornos con recursos limitados.

Importancia de ablación e entrada

Eliminar cualquier modalidad individual (por ejemplo, luces nocturnas VIIRS, ERA5, mapas mundiales dinámicos) de la preparación previa conduce a una disminución medible en el rendimiento, incluso en los puntos de referencia que no sean directamente usando ese tipo de entrada. Por ejemplo, la ausencia de datos VIIRS reduce a Mados Miou del 67.8% al 63.5%, lo que demuestra el valor de la multimodalidad completa para la generalización de características.

Impacto de código abierto y del mundo real

  • Abrir pesas y código:
    Todos los datos del código, los pesos del modelo y los datos previos a la altura están disponibles en Githubfomentando la transparencia y la adopción por la comunidad global de EO.
  • Beneficios sociales:
    Galileo apoya las actividades de cosecha de la NASA misioneros, como el mapeo global de tipo de cultivo, el mapeo rápido de desastres (inundaciones, incendios forestales) y detección de contaminación marina. La capacidad del modelo para trabajar con datos etiquetados limitados lo hace especialmente valioso en las regiones donde la verdad del suelo es escasa, apoyando los esfuerzos de seguridad alimentaria y adaptación climática.

Tabla de resumen técnico

Modelo Parámetros Tareas compatibles Rango (más bajo = mejor) Modalidades de entrada
Galileo-base 85m Imágenes, series de tiempo 1 (en general) Óptico, sar, clima, etc.
Sota especialista varía Generalmente 1 o 2 tipos 3-10 Limitado

Galileo-Base: rendimiento y flexibilidad consistentemente superiores en todos los principales puntos de referencia EO.

Conclusión

Los avances metodológicos y de ingeniería de Galileo (entradas multimodales, aprendizaje de características globales locales a gran escala y prisión previa a gran escala globalmente diversa) establecen un nuevo estándar para la IA de teledetección generalista. Su flexibilidad sustenta las implementaciones prácticas desde el monitoreo ambiental hasta la resiliencia climática, ofreciendo mapas y predicciones confiables y de alta calidad, independientemente de la tarea o la geografía.

Con acceso de código abierto y desarrollo activo, Galileo está posicionado para catalizar una nueva ola de innovación en la ciencia del sistema de la Tierra, lo que empodera a los profesionales en todas partes.


Mira el Papel, Modelo y Blog técnico. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.