Mejora de la clasificación de neuroimagen basada en aprendizaje profundo con destilación de conocimientos de 3D a 2D

Las técnicas de aprendizaje profundo se aplican cada vez más al análisis de neuroimagen, y las CNN 3D ofrecen un rendimiento superior para imágenes volumétricas. Sin embargo, su dependencia de grandes conjuntos de datos es un desafío debido al alto costo y esfuerzo requerido para la recopilación y anotación de datos médicos. Como alternativa, las CNN 2D utilizan proyecciones 2D de imágenes 3D, lo que a menudo limita el contexto volumétrico y afecta la precisión del diagnóstico. Técnicas como la transferencia de aprendizaje y la destilación de conocimientos (KD) abordan estos desafíos aprovechando modelos previamente entrenados y transfiriendo conocimientos de redes complejas de docentes a modelos de estudiantes más simples. Estos enfoques mejoran el rendimiento y al mismo tiempo mantienen la generalización en tareas de imágenes médicas con recursos limitados.

En el análisis de neuroimagen, los métodos de proyección 2D adaptan imágenes volumétricas 3D para CNN 2D, generalmente seleccionando cortes representativos. Se han utilizado técnicas como la entropía de Shannon para identificar cortes relevantes para el diagnóstico, mientras que métodos como 2D+e mejoran la información combinando cortes. KD, presentado por Hinton, transfiere conocimientos de modelos complejos a otros más simples. Los avances recientes incluyen KD intermodal, donde los datos multimodales mejoran el aprendizaje monomodal, y KD basado en relaciones, que captura relaciones entre muestras. Sin embargo, al aplicar KD para enseñar CNN 2D, las relaciones volumétricas en imágenes 3D aún deben explorarse a pesar de su potencial para mejorar la clasificación de neuroimágenes con datos limitados.

Investigadores de la Universidad Dong-A proponen un marco KD de 3D a 2D para mejorar la capacidad de las CNN 2D de aprender información volumétrica a partir de conjuntos de datos limitados. El marco incluye una red de profesores 3D que codifica el conocimiento volumétrico, una red de estudiantes 2D que se centra en datos volumétricos parciales y una pérdida de destilación para alinear las incorporaciones de características entre los dos. Aplicado a tareas de clasificación de la enfermedad de Parkinson utilizando conjuntos de datos SPECT 123I-DaTscan y PET 18F-AV133, el método demostró un rendimiento superior, logrando una puntuación F1 del 98,30 %. Este enfoque independiente de la proyección cierra la brecha de modalidad entre las imágenes 3D y 2D, mejorando la generalización y abordando los desafíos en el análisis de imágenes médicas.

El método mejora la representación de datos volumétricos parciales aprovechando la información relacional, a diferencia de enfoques anteriores que se basan en la extracción de cortes básicos o combinaciones de características sin centrarse en el análisis de lesiones. Introducimos una estrategia de “restricción de entrada parcial” para mejorar el KD de 3D a 2D. Esto implica proyectar datos volumétricos 3D en entradas 2D mediante técnicas como cortes únicos, fusión temprana (concatenación a nivel de canal), fusión conjunta (agregación de características intermedias) e imágenes dinámicas basadas en agrupación de rangos. Una red de profesores 3D codifica conocimiento volumétrico utilizando ResNet18 modificado, y una red de estudiantes 2D, entrenada en proyecciones parciales, se alinea con este conocimiento a través del aprendizaje supervisado y la alineación de características basada en similitudes.

El estudio evaluó varios métodos de proyección 2D combinados con KD de 3D a 2D para mejorar el rendimiento. Los métodos incluyeron entradas de un solo segmento, segmentos adyacentes (configuraciones EF y JF) y técnicas de agrupación de rangos. Los resultados mostraron mejoras constantes con KD de 3D a 2D, y la configuración FuseMe basada en JF logró el mejor rendimiento, comparable al modelo de profesor 3D. La validación externa del conjunto de datos PET F18-AV133 reveló que la red de estudiantes 2D, después de KD, superó al modelo de maestro 3D. Los estudios de ablación resaltaron el impacto superior de la pérdida basada en características (Lfg) sobre la pérdida basada en logits (Llg). El marco mejoró efectivamente la comprensión de las características volumétricas y al mismo tiempo abordó las brechas de modalidad.

En conclusión, el estudio contrasta el enfoque propuesto de KD de 3D a 2D con métodos anteriores en la clasificación de neuroimagen, enfatizando su integración de datos volumétricos 3D. A diferencia de los sistemas tradicionales 2D basados en CNN, que transforman datos volumétricos en cortes 2D, el método propuesto entrena una red de profesores 3D para destilar conocimientos en una red de estudiantes 2D. Este proceso reduce las demandas computacionales al tiempo que aprovecha la información volumétrica para mejorar el modelado 2D. El método resulta sólido en todas las modalidades de datos, como se muestra en las imágenes SPECT y PET. Los resultados experimentales destacan su capacidad para generalizar desde tareas dentro de la distribución a tareas fuera de la distribución, lo que mejora significativamente el rendimiento incluso con conjuntos de datos limitados.

Verificar el papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

Mejora de la clasificación de neuroimagen basada en aprendizaje profundo con destilación de conocimientos de 3D a 2D

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA lanza Nemotron-Labs-TwoTower: un modelo de lenguaje de difusión de peso abierto construido sobre una columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B

Simplifique el acceso de múltiples cuentas a los modelos de Amazon Bedrock con derechos administrados

CUP (Python útil común): creación de flujos de trabajo de Python confiables con el kit de herramientas de utilidad de Baidu

You missed

Vicki Gunvalson ofrece información actualizada sobre su compromiso y matrimonio con Michael Smith

Conduzca más lento, ahorre dinero en gasolina. ¡Gracias Física!

Cómo las estadísticas se convierten en propaganda

Torrevieja lanza la campaña de compras de verano con más de 5.000€ en premios – The Leader