Habilitar la capacitación en IA para preservar la privacidad en dispositivos cotidianos | Noticias del MIT

Un nuevo método desarrollado por investigadores del MIT puede acelerar un método de entrenamiento de inteligencia artificial que preserva la privacidad en aproximadamente un 81 por ciento. Este avance podría permitir que una gama más amplia de dispositivos de borde con recursos limitados, como sensores y relojes inteligentes, implementen modelos de IA más precisos y al mismo tiempo mantengan seguros los datos de los usuarios.

Los investigadores del MIT aumentaron la eficiencia de una técnica conocida como aprendizaje federado, que implica una red de dispositivos conectados que trabajan juntos para entrenar un modelo de IA compartido.

En el aprendizaje federado, el modelo se transmite desde un servidor central a dispositivos inalámbricos. Cada dispositivo entrena el modelo utilizando sus datos locales y luego transfiere las actualizaciones del modelo al servidor. Los datos se mantienen seguros porque permanecen en cada dispositivo.

Pero no todos los dispositivos de la red tienen suficiente capacidad, capacidad computacional y conectividad para almacenar, entrenar y transferir el modelo de un lado a otro con el servidor de manera oportuna. Esto provoca retrasos que empeoran el rendimiento del entrenamiento.

Los investigadores del MIT desarrollaron una técnica para superar estas limitaciones de memoria y cuellos de botella en la comunicación. Su método está diseñado para manejar una red heterogénea de dispositivos inalámbricos con diversas limitaciones.

Este nuevo enfoque podría hacer más factible el uso de modelos de IA en aplicaciones de alto riesgo con estrictos estándares de seguridad y privacidad, como la atención médica y las finanzas.

“Este trabajo trata de llevar la IA a dispositivos pequeños donde actualmente no es posible ejecutar este tipo de modelos potentes. Llevamos estos dispositivos con nosotros en nuestra vida diaria. Necesitamos que la IA pueda funcionar en estos dispositivos, no sólo en servidores y GPU gigantes, y este trabajo es un paso importante para permitirlo”, dice Irene Tenison, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autora principal de un artículo sobre esta técnica.

Sus coautores incluyen a Anna Murphy ’25, ingeniera de aprendizaje automático en el Laboratorio Lincoln; Charles Beauville, estudiante visitante de la Ecole Polytechnique Fédérale de Lausanne (EPFL) en Suiza e ingeniero de aprendizaje automático en Flower Labs; y la autora principal Lalana Kagal, científica investigadora principal del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT. La investigación se presentará en la Conferencia Conjunta Internacional IEEE sobre Redes Neuronales.

Reducir el tiempo de retraso

Muchos enfoques de aprendizaje federado suponen que todos los dispositivos de la red tienen suficiente memoria para entrenar el modelo de IA completo y conectividad estable para transmitir actualizaciones al servidor rápidamente.

Pero estos supuestos se quedan cortos en una red de dispositivos heterogéneos, como relojes inteligentes, sensores inalámbricos y teléfonos móviles. Estos dispositivos de borde tienen memoria y potencia computacional limitadas y, a menudo, enfrentan una conectividad de red intermitente.

El servidor central generalmente espera recibir actualizaciones del modelo de todos los dispositivos y luego las promedia para completar la ronda de capacitación. Este proceso se repite hasta que se completa el entrenamiento.

“Este retraso puede ralentizar el procedimiento de entrenamiento o incluso hacer que falle”, dice Tenison.

Para superar estas limitaciones, los investigadores del MIT desarrollaron un nuevo marco llamado FTTE (Federated Tiny Training Engine) que reduce la memoria y la sobrecarga de comunicación que necesita cada dispositivo móvil.

Su marco implica tres innovaciones principales.

Primero, en lugar de transmitir el modelo completo a todos los dispositivos, FTTE envía un subconjunto más pequeño de parámetros del modelo, lo que reduce el requisito de memoria para cada dispositivo. Los parámetros son variables internas que el modelo ajusta durante el entrenamiento.

FTTE utiliza un procedimiento de búsqueda especial para identificar parámetros que maximizarán la precisión del modelo mientras se mantienen dentro de un cierto presupuesto de memoria. Ese límite se establece en función del dispositivo con mayor limitación de memoria.

En segundo lugar, el servidor actualiza el modelo mediante un enfoque asincrónico. En lugar de esperar respuestas de todos los dispositivos, el servidor acumula actualizaciones entrantes hasta que alcanza una capacidad fija y luego continúa con la ronda de capacitación.

En tercer lugar, el servidor pondera las actualizaciones de cada dispositivo en función de cuándo las recibió. De esta manera, las actualizaciones más antiguas no contribuyen tanto al proceso de formación. Estos datos obsoletos pueden frenar el modelo, ralentizar el proceso de entrenamiento y reducir la precisión.

“Utilizamos este enfoque semiasincrónico porque queremos involucrar a los dispositivos menos potentes en el proceso de entrenamiento para que puedan contribuir con sus datos al modelo, pero no queremos que los dispositivos más potentes de la red permanezcan inactivos durante mucho tiempo y desperdicien recursos”, afirma Tenison.

Lograr aceleración

Los investigadores probaron su marco en simulaciones con cientos de dispositivos heterogéneos y una variedad de modelos y conjuntos de datos. En promedio, FTTE permitió que el procedimiento de capacitación se completara un 81 por ciento más rápido que los enfoques estándar de aprendizaje federado.

Su método redujo la sobrecarga de memoria del dispositivo en un 80 por ciento y la carga útil de comunicación en un 69 por ciento, al tiempo que alcanzó casi la precisión de otras técnicas.

“Como queremos que el modelo se entrene lo más rápido posible para ahorrar batería en estos dispositivos con recursos limitados, tenemos un compromiso en la precisión. Pero una pequeña caída en la precisión podría ser aceptable en algunas aplicaciones, especialmente porque nuestro método funciona mucho más rápido”, afirma.

FTTE también demostró una escalabilidad efectiva y entregó mayores ganancias de rendimiento para grupos más grandes de dispositivos.

Además de estas simulaciones, los investigadores probaron FTTE en una pequeña red de dispositivos reales con diferentes capacidades computacionales.

“No todo el mundo tiene el último iPhone de Apple. En muchos países en desarrollo, por ejemplo, los usuarios pueden tener teléfonos móviles menos potentes. Con nuestra técnica, podemos llevar los beneficios del aprendizaje federado a estos entornos”, afirma.

En el futuro, los investigadores quieren estudiar cómo se podría utilizar su método para aumentar el rendimiento personalizado de los modelos de IA en cada dispositivo, en lugar de centrarse en el rendimiento medio del modelo. También quieren realizar experimentos más amplios con hardware real.

Este trabajo fue financiado, en parte, por una beca de doctorado de Takeda.