Investigadores de Google revelan información práctica sobre la destilación de conocimientos para la compresión de modelos

En la actualidad, muchos subcampos de la visión artificial están dominados por modelos de visión a gran escala. Los modelos de última generación desarrollados recientemente para tareas como la segmentación semántica, la detección de objetos y la clasificación de imágenes superan las capacidades del hardware actual. Estos modelos tienen un rendimiento sorprendente, pero los elevados costes computacionales hacen que rara vez se utilicen en aplicaciones del mundo real.

Para abordar este problema, el equipo de investigación de Google se centra en la siguiente tarea: proporcionar una aplicación y un modelo enorme que funcione bien en ella. El estudio tiene como objetivo reducir el modelo a una arquitectura más pequeña y eficiente manteniendo la velocidad. La poda de modelos y la destilación de conocimientos son paradigmas populares que son objetivos para este trabajo. Al eliminar los componentes innecesarios, la poda de modelos hace que el modelo anterior sea más pequeño. Sin embargo, el equipo se centró en el método de destilación de conocimientos. El principio básico de la destilación de conocimientos es reducir un modelo de instructor grande e ineficiente (o un conjunto de modelos) a un modelo de estudiante más pequeño y más eficiente. Las predicciones del estudiante, también conocidas como activaciones internas, se alinean con las del profesor, lo que permite un cambio en la familia de modelos como parte de la compresión. Siguiendo al pie de la letra el arreglo de destilación inicial, ven que es notablemente eficaz. Encuentran que para una buena generalización, es importante que las funciones sean compatibles con muchos puntos de apoyo. Los puntos de apoyo fuera de la variedad de imágenes original se pueden generar utilizando una mezcla agresiva (una técnica de aumento de datos que combina dos imágenes para crear una nueva). Esta técnica ayuda al estudiante a modelar el aprendizaje a partir de una gama más amplia de datos, mejorando su generalización.

Los investigadores demuestran experimentalmente que las ampliaciones agresivas, los largos períodos de entrenamiento y las vistas de imágenes consistentes son cruciales para que la compresión de modelos mediante la destilación de conocimientos funcione bien en la práctica. Estos hallazgos pueden parecer sencillos, pero existen varios obstáculos potenciales a los que se enfrentan los investigadores (y los profesionales) cuando intentan implementar las decisiones de diseño propuestas. Para empezar, en particular para los profesores extremadamente grandes, puede resultar tentador precalcular las operaciones de una imagen sin conexión una vez para ahorrar cálculos. Este método de tener un instructor diferente. Además, muestran que los escritores a menudo sugieren opciones de diseño distintas u opuestas cuando se utiliza la destilación de conocimientos en situaciones distintas a la compresión de modelos. En comparación con el entrenamiento supervisado, la destilación de conocimientos tiene un número anormalmente alto de épocas necesarias para lograr un rendimiento óptimo. Por último, las decisiones que parecen menos que ideales durante las sesiones de entrenamiento de una duración normal a menudo resultan ser las más óptimas en ejecuciones prolongadas, y lo contrario también es cierto.

En su investigación empírica, se centraron principalmente en comprimir la gran red BiT-ResNet-152×2. Esta red se entrenó en el conjunto de datos ImageNet-21k y se ajustó para alinearse con los conjuntos de datos relevantes. Sin sacrificar la precisión, la redujeron a una arquitectura ResNet-50 típica al intercambiar la normalización por lotes por la normalización por grupos y probarla en varios conjuntos de datos pequeños y medianos. Debido a su alto costo de implementación (aproximadamente diez veces más potencia de procesamiento que la ResNet-50 de referencia), la compresión eficiente de este modelo es crucial. Utilizaron una versión corta de BiT-ResNet-50 llamada ResNet-50 para la arquitectura del estudiante. Los resultados en el conjunto de datos ImageNet son igualmente impresionantes: utilizando un total de 9600 épocas de destilación (iteraciones del proceso de destilación), la solución logró un impresionante SOTA ResNet-50 del 82,8 % en ImageNet. Este modelo supera al mejor ResNet-50 de la literatura en un 2,2% y un 4,4% en comparación con el modelo ResNet-50, el último de los cuales emplea una configuración más compleja.

En general, el estudio demuestra la eficacia y la solidez de la fórmula de destilación propuesta. Al comprimir y cambiar con éxito las familias de modelos, como el diseño BiT-ResNet a la arquitectura MobileNet, el equipo muestra el potencial de sus soluciones. Esta transición de modelos extremadamente grandes a la arquitectura ResNet-50 más realista produce resultados empíricos sólidos, lo que infunde optimismo en la audiencia sobre el futuro de la compresión de modelos en la visión artificial.


Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios


Dhanshree Shenwai es ingeniera informática y tiene una amplia experiencia en empresas de tecnología financiera que abarcan los ámbitos financiero, de tarjetas y pagos y bancario, y está muy interesada en las aplicaciones de la inteligencia artificial. Le entusiasma explorar nuevas tecnologías y avances en el cambiante mundo actual, facilitando la vida de todos.