Los conjuntos de datos de mamografía accesibles y los métodos avanzados de aprendizaje automático son clave para mejorar el diagnóstico del cáncer de mama asistido por computadora. Sin embargo, el acceso limitado a conjuntos de datos privados, el muestreo selectivo de imágenes de bases de datos públicas y la disponibilidad parcial de códigos obstaculizan la reproducibilidad y validación de estos modelos. Estas limitaciones crean barreras para los investigadores que pretenden avanzar en este campo. El cáncer de mama provocará 670.000 muertes en todo el mundo en 2022. Aunque tecnologías como la tomosíntesis mejoran el cribado, los falsos positivos y la variabilidad en las interpretaciones de los radiólogos aumentan la ansiedad de las pacientes y los costes sanitarios. Además, los algoritmos CAD enfrentan desafíos en cuanto a confiabilidad debido a conjuntos de datos limitados y rendimiento reducido en aplicaciones del mundo real.

Investigadores de Biomedical Deep Learning LLC y la Universidad de Washington en St. Louis han desarrollado un código base piloto para agilizar todo el proceso de diagnóstico del cáncer de mama, desde el preprocesamiento de imágenes hasta el desarrollo y la evaluación del modelo. El equipo identificó que tamaños de entrada más grandes mejoran la precisión de la detección de enfermedades malignas en varios tipos de modelos utilizando el subconjunto de masas CBIS-DDSM, que proporciona imágenes completas y regiones de interés (ROI). Esta base de código está diseñada para promover los esfuerzos globales de desarrollo de software de diagnóstico de cáncer de mama al proporcionar un marco reproducible que incorpora innovaciones recientes.

El conjunto de datos CBIS-DDSM contiene imágenes de mamografía de acceso público seleccionadas por expertos capacitados, con actualizaciones de etiquetado de patología y segmentación. Las imágenes se convirtieron de formato DICOM a PNG y se procesaron para mantener el foco central de la región anormal, incluida la aplicación de transformaciones de imágenes para aumentarlas. El proceso de entrenamiento del modelo incluye carga de datos, normalización y una arquitectura de red neuronal convolucional personalizada, seguida de validación mediante exactitud, precisión, recuperación, puntuación F1 y métricas AUROC. El seguimiento del rendimiento mediante paradas tempranas y puntos de control garantiza resultados optimizados, lo que facilita investigaciones futuras y mejoras en la precisión del diagnóstico.

El estudio exploró el conjunto de datos del subconjunto masivo CBIS-DDSM para mejorar el diagnóstico del cáncer de mama mediante el procesamiento de imágenes y el aprendizaje profundo. El subconjunto incluye 1696 ROI anormales y 1592 mamografías completas correspondientes en formato DICOM, que se convirtieron a PNG para su análisis. Cada imagen se procesó para centrarse en regiones anormales, se estandarizó a 598 × 598 píxeles y se mejoró mediante técnicas de aumento de datos. Las imágenes aumentadas se dividieron para entrenamiento (80%), validación (10%) y prueba (10%), con modelos creados mediante aprendizaje por transferencia y evaluados en múltiples tamaños de imagen: 224×224, 299×299, 448×448, y 598×598 píxeles. El estudio destacó que el uso de imágenes de mayor tamaño mejoró la detección de casos malignos, lo que subraya la importancia de preservar los detalles de las imágenes en las imágenes médicas.

El rendimiento del modelo varió según la arquitectura y el tamaño de entrada, y los modelos ResNet-50 superaron a los modelos Xception, particularmente en 448 × 448 píxeles, donde el primero logró una puntuación ROC AUC y una tasa de detección maligna más altas. Las imágenes más grandes permitieron representaciones más detalladas, beneficiosas para capturar características cancerosas específicas, mientras que las imágenes más pequeñas provocaron cierta pérdida de detalles, lo que afectó las tasas de detección. El estudio concluyó que la arquitectura de ResNet-50, que captura patrones complejos a través del aprendizaje residual, funcionó de manera efectiva para tareas de mamografía en comparación con el enfoque de convolución profunda de Xception, lo que la convierte en una opción más sólida para detectar neoplasias malignas de grano fino en imágenes de mamografía.

En conclusión, los modelos de detección del cáncer de mama han evolucionado a través de diversas innovaciones, desde la simulación de la progresión del cáncer hasta la aplicación de técnicas de inteligencia artificial como CAD y aprendizaje federado. Sin embargo, las metodologías inconsistentes y los conjuntos de datos opacos crean desafíos en materia de replicabilidad. Para abordar esto, el estudio aporta una base de código totalmente accesible, desde el preprocesamiento de imágenes hasta la evaluación, utilizando el conjunto de datos CBIS-DDSM. Esta base de código proporciona un flujo de trabajo transparente para respaldar el desarrollo y la validación de modelos en el diagnóstico del cáncer de mama. Al mejorar el tamaño de la entrada y aplicar estrictos controles de calidad, los investigadores pretenden mejorar la precisión y la fiabilidad del modelo, fomentando la transparencia y acelerando los avances en este campo.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[AI Magazine/Report] Lea nuestro último informe sobre ‘MODELOS DE LENGUAS PEQUEÑAS


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.