La destilación del conocimiento ha ganado popularidad por transferir la experiencia de un modelo de “maestro” a un modelo más pequeño de “estudiante”. Inicialmente, se emplea un proceso de aprendizaje iterativo que involucra un modelo de alta capacidad. El alumno, con igual o mayor capacidad, se entrena con aumentación extensiva. Posteriormente, el estudiante capacitado amplía el conjunto de datos mediante el pseudoetiquetado de nuevos datos. Cabe destacar que el alumno puede superar el desempeño del docente. También se ha explorado la destilación en conjunto, que involucra a varios profesores con conocimientos de dominio restringidos.
Recientemente, los Foundation Models (FM) han surgido como grandes modelos generales entrenados en vastos conjuntos de datos, ejemplificados por CLIP y DINOv2, que muestran notables rendimientos de disparo cero en tareas de visión por computadora. SAM se destaca por sus capacidades de segmentación de instancias, atribuidas a sus fuertes y densas representaciones de características. A pesar de sus diferencias conceptuales, estos modelos pueden fusionarse efectivamente en un modelo unificado mediante la destilación de varios maestros.
La destilación de conocimientos implica entrenar un modelo de «estudiante» utilizando objetivos suaves generados por un modelo de «maestro» previamente entrenado, ya sea a través de los logits de salida del maestro o activaciones de red intermedias. La destilación de múltiples maestros explora la destilación conjunta de un modelo de estudiante de varios maestros, con cada estudiante asignado de forma independiente a cada maestro. Además, los modelos básicos, grandes y que requieren muchos recursos, se destilan para entrenar variantes más pequeñas, como se demostró en trabajos de investigación anteriores.
Los investigadores de NVIDIA presentan AM-RADIO para utilizar múltiples modelos fundamentales simultáneamente, lo que permite que los modelos de estudiantes, con la capacidad suficiente, superen a los profesores individuales en métricas cruciales. Estos modelos de estudiantes imitan a sus profesores, lo que facilita el desempeño en diversas tareas posteriores, incluidas las aplicaciones CLIP-ZeroShot y las tareas Segment-Anything. Además, proporcionan un estudio que evalúa el impacto de las arquitecturas de modelos eficientes en hardware, destacando el desafío de combinar ViT VFM con arquitecturas similares a CNN. Lo que llevó al desarrollo de una novedosa arquitectura híbrida, E-RADIO, que supera a sus predecesores y muestra una eficiencia superior.
El marco AM-RADIO tiene como objetivo entrenar un modelo básico de visión desde cero mediante la destilación de múltiples maestros. Se seleccionan tres familias de modelos docentes fundamentales, CLIP, DINOv2 y SAM, por su desempeño sobresaliente en diversas tareas. Dado el supuesto de que estos modelos de docentes representan un amplio espectro de imágenes de Internet, no se utiliza ninguna guía de verdad complementaria. Las métricas de evaluación abarcan el razonamiento a nivel de imagen, tareas visuales a nivel de píxel, como la segmentación mIOU en ADE20K y Pascal VOC, la integración en grandes modelos de visión-lenguaje y la segmentación de instancias SAM-COCO.
E-RADIO supera a los profesores originales como CLIP, DINOv2 y SAM en diversas tareas, incluida la respuesta a preguntas visuales. E-RADIO demuestra un rendimiento superior en múltiples puntos de referencia, mostrando un mayor rendimiento y una eficiencia mejorada. Además, supera a los modelos ViT en tareas densas como la segmentación semántica y la segmentación de instancias. La flexibilidad del marco se destaca por su integración exitosa en configuraciones visuales de respuesta a preguntas, lo que subraya su potencial para diversas aplicaciones.
En resumen, la destilación del conocimiento se ha convertido en una técnica prominente para transferir conocimiento de un modelo de “maestro” a un modelo más pequeño de “estudiante”, superando el desempeño del maestro. Este enfoque se ha extendido a la destilación de conjuntos y a los modelos básicos (FM) como CLIP y DINOv2, conocidos por sus capacidades de disparo cero y su destreza en la segmentación de instancias. NVIDIA presenta AM-RADIO, que utiliza múltiples modelos básicos simultáneamente, superando a los maestros originales como CLIP y DINOv2. E-RADIO, una novedosa arquitectura híbrida, surge para abordar el desafío de combinar FM con arquitecturas similares a CNN. A través de la destilación de múltiples maestros, AM-RADIO entrena un modelo básico de visión desde cero, demostrando un rendimiento superior en diversas tareas, incluida la respuesta a preguntas sobre visión y la segmentación de instancias.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.