CloudFerro y ESA Φ-lab lanzan el primer conjunto de datos de incrustaciones globales para observaciones de la Tierra

CloudFerro y el Φ-lab de la Agencia Espacial Europea (ESA) han presentado el primer conjunto de datos de incrustaciones globales para observaciones de la Tierra, un avance significativo en el análisis de datos geoespaciales. Este conjunto de datos, que forma parte del proyecto Major TOM, tiene como objetivo proporcionar conjuntos de datos estandarizados, abiertos y accesibles preparados para IA para la observación de la Tierra. Esta colaboración aborda el desafío de gestionar y analizar los archivos masivos de datos satelitales de Copernicus y al mismo tiempo promover aplicaciones escalables de IA.

El papel de incorporar conjuntos de datos en la observación de la Tierra

El volumen cada vez mayor de datos de observación de la Tierra presenta desafíos para procesar y analizar imágenes geoespaciales a gran escala de manera eficiente. La incorporación de conjuntos de datos aborda este problema transformando datos de imágenes de alta dimensión en representaciones vectoriales compactas. Estas incorporaciones encapsulan características semánticas clave, lo que facilita búsquedas, comparaciones y análisis más rápidos.

El Gran proyecto TOM se centra en el dominio geoespacial, garantizando que sus conjuntos de datos integrados sean compatibles y reproducibles para diversas tareas de observación de la Tierra. Al aprovechar modelos avanzados de aprendizaje profundo, estas incorporaciones agilizan el procesamiento y análisis de imágenes satelitales a escala global.

Características del conjunto de datos de incrustaciones globales

Los conjuntos de datos incorporados, derivados de los principales conjuntos de datos de TOM Core, incluyen más de 60 TB de datos de Copernicus listos para IA. Las características clave incluyen:

  • Cobertura Integral: Con más de 169 millones de puntos de datos y más de 3,5 millones de imágenes únicas, el conjunto de datos proporciona una representación exhaustiva de la superficie de la Tierra.
  • Modelos diversos: Generadas utilizando cuatro modelos distintos (SSL4EO-S2, SSL4EO-S1, SigLIP y DINOv2), las incorporaciones ofrecen representaciones de funciones variadas adaptadas a diferentes casos de uso.
  • Formato de datos eficiente: Almacenadas en formato GeoParquet, las incorporaciones se integran perfectamente con los flujos de trabajo de datos geoespaciales, lo que permite consultas eficientes y compatibilidad con los canales de procesamiento.

Metodología de integración

La creación de las incrustaciones implica varios pasos:

  1. Fragmentación de imágenes: Las imágenes de satélite se dividen en parches más pequeños adecuados para los tamaños de entrada del modelo, preservando los detalles geoespaciales.
  2. Preprocesamiento: Los fragmentos se normalizan y escalan según los requisitos de los modelos de incrustación.
  3. Generación integrada: Los fragmentos preprocesados ​​se procesan a través de modelos de aprendizaje profundo previamente entrenados para crear incrustaciones.
  4. Integración de datos: Las incrustaciones y los metadatos se compilan en archivos GeoParquet, lo que garantiza un acceso y una usabilidad optimizados.

Este enfoque estructurado garantiza incorporaciones de alta calidad al tiempo que reduce las demandas computacionales para las tareas posteriores.

Aplicaciones y casos de uso

Los conjuntos de datos incorporados tienen diversas aplicaciones, que incluyen:

  • Monitoreo del uso de la tierra: Los investigadores pueden realizar un seguimiento eficiente de los cambios en el uso de la tierra vinculando espacios integrados con conjuntos de datos etiquetados.
  • Análisis ambiental: El conjunto de datos respalda el análisis de fenómenos como la deforestación y la expansión urbana con costos computacionales reducidos.
  • Búsqueda y recuperación de datos: Las incorporaciones permiten búsquedas rápidas de similitudes, simplificando el acceso a datos geoespaciales relevantes.
  • Análisis de series de tiempo: Las huellas de integración consistentes facilitan el monitoreo a largo plazo de los cambios en diferentes regiones.

Eficiencia computacional

Los conjuntos de datos incorporados están diseñados para brindar escalabilidad y eficiencia. Los cálculos se realizaron en la plataforma en la nube CREODIAS de CloudFerro, utilizando hardware de alto rendimiento como las GPU NVIDIA L40S. Esta configuración permitió el procesamiento de billones de píxeles de datos de Copernicus manteniendo la reproducibilidad.

Estandarización y acceso abierto

Un sello distintivo de los conjuntos de datos integrados de Major TOM es su formato estandarizado, que garantiza la compatibilidad entre modelos y conjuntos de datos. El acceso abierto a estos conjuntos de datos fomenta la transparencia y la colaboración, fomentando la innovación dentro de la comunidad geoespacial global.

Avances de la IA en la observación de la Tierra

El conjunto de datos de incorporación global representa un importante paso adelante en la integración de la IA con la observación de la Tierra. Permitir un procesamiento y análisis eficientes prepara a los investigadores, formuladores de políticas y organizaciones para comprender y gestionar mejor los sistemas dinámicos de la Tierra. Esta iniciativa sienta las bases para nuevas aplicaciones y conocimientos en el análisis geoespacial.

Conclusión

La asociación entre CloudFerro y ESA Φ-lab ejemplifica el progreso en la industria de datos geoespaciales. Al abordar los desafíos de la observación de la Tierra y desbloquear nuevas posibilidades para las aplicaciones de IA, el conjunto de datos integrados globales mejora nuestra capacidad para analizar y gestionar datos satelitales. A medida que el proyecto Major TOM evoluciona, está preparado para impulsar mayores avances en ciencia y tecnología.


Verificar el Papel y Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.