Ejemplos de cómo crear diferentes tipos de gráficos circulares usando Matplotlib para visualizar los resultados del análisis de bases de datos en un Jupyter Notebook con Pandas
Mientras trabajaba en mi tesis de maestría titulada “Factores asociados con publicaciones científicas impactantes en la investigación de enfermedades cardíacas financiadas por los NIH”, utilicé diferentes tipos de gráficos circulares para ilustrar algunos de los hallazgos clave del análisis de la base de datos.
Un gráfico circular puede ser una opción eficaz para la visualización de datos cuando un conjunto de datos contiene un número limitado de categorías que representan partes de un todo, lo que lo hace muy adecuado para mostrar datos categóricos con énfasis en comparar las proporciones relativas de cada categoría.
En este artículo, demostraré cómo crear cuatro tipos diferentes de gráficos circulares utilizando el mismo conjunto de datos para proporcionar una representación visual más completa y una visión más profunda de los datos. Para lograr esto, usaré Matplotlib, la biblioteca de trazado de Python, para mostrar visualizaciones de gráficos circulares de los datos estadísticos almacenados en el marco de datos. Si no está familiarizado con la biblioteca Matplotlib, un buen comienzo es el Manual de ciencia de datos de Python de Jake VanderPlas, específicamente el capítulo sobre Visualización con Matplotlib y matplotlib.org.
Primero, importemos todas las bibliotecas y extensiones necesarias:
A continuación, prepararemos el archivo CSV para su procesamiento:
El miniconjunto de datos utilizado en este artículo destaca las 10 principales revistas con publicaciones de investigación sobre enfermedades cardíacas entre 2002 y 2020 y forma parte de una base de datos más amplia recopilada para la investigación de la tesis de maestría. Las columnas “Mujer”, “Masculino” y “Desconocido” representan el género del primer autor de los artículos publicados, mientras que la columna “Total” refleja el número total de artículos de investigación sobre enfermedades cardíacas publicados en cada revista.
Para conjuntos de datos más pequeños con menos categorías, un gráfico circular con sectores explosivos puede resaltar de manera efectiva una categoría clave separándola ligeramente del resto del gráfico. Este efecto visual llama la atención sobre categorías específicas, haciéndolas destacar del resto. Cada segmento representa una parte del total, y su tamaño es proporcional a los datos que representa. Se pueden agregar etiquetas a cada sector para indicar la categoría, junto con porcentajes para mostrar su proporción con respecto al total. Esta técnica visual hace que el segmento desglosado se destaque sin perder el contexto de la representación completa de los datos.
La misma técnica de cortes explosivos se puede aplicar a todas las demás entradas del conjunto de datos de muestra y los gráficos resultantes se pueden mostrar en una sola figura. Este tipo de visualización ayuda a resaltar la representación excesiva o insuficiente de una categoría particular dentro del conjunto de datos. En el ejemplo proporcionado, presentar los 10 gráficos en una figura revela que ninguna de las 10 principales revistas en investigación de enfermedades cardíacas publicó más artículos escritos por mujeres que por hombres, lo que enfatiza la disparidad de género.
También se puede utilizar una variación del gráfico circular, conocido como gráfico de anillos, para visualizar datos. Los gráficos de anillos, al igual que los gráficos circulares, muestran las proporciones de las categorías que forman un todo, pero el centro del gráfico de anillos también se puede utilizar para presentar datos adicionales. Este formato está menos abarrotado visualmente y puede facilitar la comparación de los tamaños relativos de los sectores en comparación con un gráfico circular estándar. En el ejemplo utilizado en este artículo, el gráfico de anillos destaca que entre las 10 principales revistas con publicaciones de investigación sobre enfermedades cardíacas, la American Journal of Physiology, Heart and Circulatory Physiology publicó la mayor cantidad de artículos, con un 21,8 %.
Podemos mejorar la visualización de información adicional del conjunto de datos de muestra basándose en el gráfico de anillos anterior y creando una versión anidada. El agregar_artista() El método del módulo de figuras de Matplotlib se utiliza para incorporar cualquier artista adicional (como figuras u objetos) a la figura base. Al igual que en el gráfico de anillos anterior, esta variación muestra la distribución de las publicaciones en las 10 principales revistas de investigación de enfermedades cardíacas. Sin embargo, también incluye una capa adicional que muestra la distribución por género de los primeros autores de cada revista. Esta visualización resalta que un porcentaje mayor de los primeros autores son hombres.
En conclusión, los gráficos circulares son eficaces para visualizar datos con un número limitado de categorías, ya que permiten a los espectadores comprender rápidamente las categorías más importantes o las proporciones dominantes de un vistazo. En este ejemplo específico, el uso de cuatro tipos diferentes de gráficos circulares proporciona una visualización clara de la distribución de género entre los primeros autores en las 10 principales revistas con publicaciones de investigación sobre enfermedades cardíacas, según el miniconjunto de datos de 2002 a 2020 utilizado en este estudio. Es evidente que un mayor porcentaje de los primeros autores de la publicación son hombres, y ninguna de las 10 principales revistas de investigación de enfermedades cardíacas publicó más artículos escritos por mujeres que por hombres durante el período examinado.
Jupyter Notebook y el conjunto de datos utilizados para este artículo se pueden encontrar en GitHub
Gracias por leer,
Diana
Nota: utilicé incrustaciones de GitHub para publicar este artículo.