Los investigadores de Google introdujeron LSM-2 con enmascaramiento adaptativo y heredado (AIM): habilitando el aprendizaje directo de los datos portátiles incompletos

Introducción

Los dispositivos portátiles están transformando el monitoreo de la salud al permitir una recolección continua de señales fisiológicas y de comportamiento, como la frecuencia cardíaca, la actividad, la temperatura y la conductancia de la piel. Sin embargo, los datos del mundo real que generan estos dispositivos son muy propensos a la falta debido a las fallas del sensor, la eliminación del dispositivo, la carga, los artefactos de movimiento, los modos de ahorro de baterías y otras interrupciones. Esto presenta un desafío significativo para el aprendizaje auto-supervisado (SSL) y los modelos de base, que generalmente esperan flujos de datos regulares completos. Las soluciones pasadas a menudo se basan en la imputación de datos o en el descarte de instancias incompletas, lo que corre el riesgo de introducir sesgos o desperdiciar información valiosa.

Un equipo de investigadores de Google Deepmind introdujo el marco LSM-2 (Gran Sensor Modelo 2), acompañado por la nueva estrategia de enmascaramiento (AIM) adaptativo y heredado, acumula estos problemas directamente, aprendiendo representaciones sólidas de datos de sensores portátiles incompletos sin imputación explícita. A continuación, examinamos las innovaciones técnicas, los resultados empíricos y las ideas clave de este avance.

El desafío: falta de datos portátiles

  • Fragmentación de datos: En un conjunto de datos a gran escala de 1.6 millones de muestras de datos portátiles de un día (1440 minutos), 0% de las muestras estaban completamente completas; La falta de falta es ubicua y a menudo estructurada en espacios largos, no simples abandonos aleatorios.
  • Modos de falta: Las causas comunes incluyen:
    • Dispositivo apagado (cargar o no usarse)
    • Desactivación selectiva del sensor (ahorro de energía u operación específica)
    • Artefactos de movimiento o ruido ambiental
    • Lecturas fuera de rango o fisiológicamente imposibles filtradas durante el preprocesamiento
  • Impacto en el modelado: Muchos patrones fisiológicos clínicamente relevantes (por ejemplo, ritmos circadianos, variabilidad de la frecuencia cardíaca) requieren análisis de secuencias largas, donde la falta de falta está casi garantizada.

Enmascaramiento adaptativo y heredado (AIM): enfoque técnico

Conceptos clave

APUNTAR integra dos tipos de enmascaramiento para un aprendizaje robusto:

  • Máscara heredada: Marcas de tokens correspondientes a la falta real de la falta en los datos del sensor
  • Máscara artificial: Máscaras al azar observaron tokens para proporcionar objetivos de reconstrucción para el pretratenamiento auto-supervisado

Estas máscaras son sindical y manejado por una estructura de codificador codificador basada en transformador, lo que permite que el modelo:

Estrategias de enmascaramiento para el preado

  • Imputación aleatoria: Dejar caer el 80% de las fichas que simulan el ruido del sensor
  • Rodajas temporales: Lanzar el 50% de las ventanas temporales (todos los sensores faltan durante los períodos aleatorios)
  • Rodajas de sensor: Dejar caer el 50% de los canales de sensor durante todo el día (modelado de períodos de sensor selectivo)

AIM combina la eficiencia del enmascaramiento de abandono (eliminación del cálculo) y la flexibilidad del enmascaramiento de atención (soporte para la falta de falta de variación dinámica), lo que permite que el modelo se escala a largas secuencias de entrada (día,> 3.000 tokens).

Detalles del conjunto de datos y previación

Evaluación y resultados

Tareas aguas abajo

LSM-2 basado en AIM se evaluó en:

  • Clasificación: Hipertensión binaria, ansiedad y reconocimiento de actividad de 20 clases
  • Regresión: Edad e IMC
  • Generativo: Recuperación de datos de sensor faltantes (imputación aleatoria, brechas temporales/de señal)

Resultados cuantitativos

Tarea Métrico Mejor LSM-1 LSM-2 con objetivo Mejora
Hipertensión F1 0.640 0.651 +1.7%
Reconocimiento de actividad F1 0.470 0.474 +0.8%
IMC (regresión) Corrección 0.667 0.673 +1.0%
Imputación aleatoria (80%) MSE (↓) 0.30 0.20 +33% de error más bajo
Recuperación de 2 firmas MSE (↓) 0.73 0.17 +77% de error más bajo

Ideas técnicas

Conclusión

LSM-2 con enmascaramiento adaptativo y heredado presenta un gran paso adelante para implementar ideas de salud impulsadas por la IA utilizando datos de sensores portátiles del mundo real. Al adoptar directamente la falta ubicua, estructurada, y unificar capacidades generativas y discriminativas bajo un modelo de base eficiente y robusto, este enfoque establece bases cruciales para el futuro de la IA portátil y de la salud en entornos de datos realistas e imperfectos.


Mira el Papel y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto.

Conozca el boletín de AI Dev leídos por 40k+ desarrolladores e investigadores de Nvidia, Openai, DeepMind, Meta, Microsoft, JP Morgan Chase, Amgen, Aflac, Wells Fargo y 100 más [SUBSCRIBE NOW]


Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.