Artículo en mi serie de visualización de datos. Vea el artículo anterior: “Visualización de datos explicada: qué es y por qué importa”.
Entonces, ahora ha aprendido la idea fundamental de lo que subyace a la visualización de datos y por qué es un componente esencial del ecosistema de ciencia de datos. (Si no está familiarizado con esto, asegúrese de consultar el artículo vinculado anteriormente).
Como discutimos en el artículo anterior, la idea central de la visualización de datos es encontrar una forma efectiva de representar datos de varios tipos de manera visual.
El concepto subyacente clave que hace que esta representación funcione como un canal de codificación visual. Un canal de codificación visual es efectivamente el medio a través de los cuales se traduce en una marca visual numérica, textual o alguna otra forma de datos. La mejor manera de pensarlo es como una característica visual correspondiente a todo o parte de sus datos. Las visualizaciones de datos efectivas a menudo utilizan múltiples canales de codificación visual para diferentes aspectos de los datos.
En este segundo artículo, nos sumergiremos en los detalles de los canales de codificación visual y obtendremos algunas prácticas desglosando una visualización compleja en sus partes componentes. Esto lo preparará para diseñar sus propias visualizaciones en el futuro cercano.
Introducción a las variables visuales
En su trabajo de 1967, la semiología de los gráficos, el cartógrafo francés Jacques Bertin describió siete variables “retinianas”, nombradas como tales porque la retina del ojo humano es sensible a ellas [1]:
Posición (como las coordenadas en un gráfico) Color de forma de tamaño Valor de color del tono (Ligera a la oscuridad) Textura de orientación
Aunque Bertin publicó su trabajo hace décadas, sus variables visuales siguen siendo una excelente guía para el diseño moderno de visualización de datos. En las primeras fases del desarrollo de una visualización, es una buena práctica revisar las variables visuales disponibles y determinar cuáles usar para variables específicas en los datos.
Este puede ser un concepto confuso y se entiende más fácilmente con un ejemplo. El gráfico a continuación, a menudo considerado una aplicación magistral de visualización, fue diseñado y dibujado por Charles Minard. Representa la fallida invasión de Napoleón de Rusia.
Esta es una versión simplificada y traducida del mapa para aliviar la legibilidad; Para el original, ver aquí [2].
¿Qué diferentes variables visuales se están utilizando en el gráfico anterior? (Sugerencia: hay bastantes). Como ejercicio, saca un bolígrafo y papel e intenta determinar esto tú mismo. Lo caminaremos en detalle en un momento.
Maximización de la efectividad de las variables visuales
La mejor variable visual para usar para una visualización específica depende de los datos. Aquí, veremos tres tipos diferentes de datos:
Cuantitativo: datos numéricos con un orden natural que es adecuado para operaciones matemáticas (es decir, tiene sentido agregar/restar/multiplicar/dividir los valores de datos individuales). Por ejemplo, el salario y la edad son variables cuantitativas. Ordinal: datos categóricos (es decir, datos no numéricos que pueden asumir un número fijo de valores) que todavía tienen un orden natural. Si alguna vez ha realizado una encuesta con opciones de respuesta como “totalmente de acuerdo”, “de acuerdo”, “neutral”, “en desacuerdo” y “totalmente en desacuerdo”, entonces ha visto datos ordinales en acción. Si bien las operaciones matemáticas en estos datos no tienen sentido, todavía se pueden ordenar varios valores de “lo mejor” a “lo peor”, por así decirlo. Esto también incluye variables que pueden tener un orden sin ser técnicamente “clasificado”, como los patrones de semáforo. Nominal: datos categóricos que no tienen pedidos naturales. Un gran ejemplo de esto es el color. Si bien es posible distinguir entre diferentes colores, no tienen una secuencia natural. (Esto también explica por qué el color es una excelente codificación visual para variables nominales en general, como veremos a continuación.
Importante: solo porque una variable es un número no lo hace cuantitativo automáticamente. Por ejemplo, los códigos postales son números, pero no tienen pedidos naturales, ni uno puede realizar operaciones matemáticas en ellos. Por lo tanto, el código postal es una variable nominal.
La siguiente tabla, una variación de una diseñada por expertos en visualización Jock D. Mackinlay y Stuart Tard, describe la efectividad de diferentes variables visuales dependiendo del tipo de datos [2]:
Algunos puntos clave sobre estas clasificaciones:
La posición es la mejor opción para todos los tipos de variables. Por ejemplo, un gráfico de barras con nombres en el eje X y la presión arterial en el eje Y usa la posición tanto para una variable nominal como para una variable cuantitativa, respectivamente. Después de la posición, la deseabilidad cambia para cada tipo de variable. Es importante saberlo porque si está graficando varias variables, eventualmente tendrá que usar algo más que la posición porque ya se está utilizando (generalmente en un gráfico 2-D con dos ejes). La longitud es una extensión de la posición, pero especialmente útil para las comparaciones cuantitativas. La densidad y la saturación son excelentes para las variables ordinales, ya que sus espectadores no necesitan determinar los valores exactos, solo necesitan ver las clasificaciones. El tono y la forma funcionan bien para las variables nominales, lo que facilita ver las diferencias categóricas. Algunas opciones están completamente tachadas porque simplemente no tendrían sentido. Por ejemplo, la forma no es una posible opción de codificación para variables cuantitativas u ordinales, porque no habría forma de comparar cantidades o comprender las órdenes.
Ahora, caminemos por un ejemplo de cómo desglosar los canales de codificación visual en detalle.
Mapa de Minard: Desglosando las variables
Veamos el mapa de Minard de la invasión de Napoleón juntos. Aquí está nuevamente por conveniencia. Este ejemplo está tomado del famoso libro de visualización de Edward Tufte, la visualización visual de información cuantitativa [3].
Un estudio cuidadoso de este mapa muestra el dominio de Charles Minard de los canales de codificación visual como brillantes. Su visualización muestra seis variables diferentes:
Ubicación geográfica (cuantitativa): la posición se utiliza para mostrar la ubicación del ejército de Napoleón en una superficie 2-D (por lo que estas son técnicamente dos variables). La invasión comenzó en el lado izquierdo del mapa, en la frontera polaca-rusa. También podemos ver cómo a veces, partes del ejército se ramifican en diferentes lugares como parte de la estrategia de Napoleón. Ubicación geográfica (cuantitativa): ver arriba. Tiempo (cuantitativo): Mirando de cerca, podemos ver que varios puntos en el tiempo se enumeran en el eje X de la tabla en la parte inferior de la visualización. Nuevamente, la posición se usa para mostrar esta variable. Temperatura (cuantitativa): la temperatura se traza en relación con el tiempo en el gráfico debajo del mapa. La posición se usa una vez más, esta vez en el eje Y. Número de tropas restantes en el ejército (cuantitativo): el ancho de la forma que se mueve a través del mapa representa el número de tropas en el ejército de Napoleón. Está claro que a medida que avanzaba la invasión, el ejército de Napoleón se volvió cada vez más pequeño. Finalmente regresaron a Polonia con solo 10,000 soldados vivos de 422,000 iniciales. Dirección del movimiento del Ejército (nominal): el color se usa para representar la dirección en la que el ejército se mueve en varias posiciones. El color beige/bronceado (blanco en la imagen simplificada que tenemos arriba) indica el movimiento del ejército hacia Moscú, y el color negro indica su retirada de regreso a Polonia.
En su libro [3]Tufte se refiere al mapa de Minard como posiblemente “el mejor gráfico estadístico jamás dibujado”. Estudiarlo puede inspirarnos a idear formas inteligentes para codificar nuestros propios datos visualmente.
Pensamientos finales y mirando hacia adelante
Con este segundo artículo, ha aprendido la idea fundamental detrás del diseño de visualización: canales de codificación visual. A medida que reflexiona sobre lo que ha aprendido, tenga en cuenta los siguientes puntos clave:
La elección del canal de codificación visual a menudo puede hacer o romper una visualización. Es posible que tenga un gráfico bellamente diseñado, pero si los canales de codificación visual son difíciles de interpretar, sus espectadores no sabrán lo que está tratando de decir. La posición reina suprema para todos los tipos de variables, pero hay espacio limitado en un entorno 2-D. Como tal, piense cuidadosamente sobre las variables que muestra con la posición; A menudo serán los más importantes. ¡Prueba diferentes diseños! No hay “una” solución perfecta. Más bien, debe revisar y reiterar hasta alcanzar un punto satisfactorio.
En el próximo artículo, hablaremos sobre consejos importantes para el diseño de visualización y cómo las técnicas han evolucionado y expandido en las últimas décadas. Hasta entonces.
Referencias
[1] Semiología de los gráficos, Jacques Bertin (traducido por J. Ronald Eastman)
[2] https://ageofrevolution.org/200-object/flow-map-ofnapolonons-invasion-of-russia/
[2] Lecturas en Visualización de la información: Uso de Vision to Think (Card, Mackinlay y Shneiderman)
[3] La visualización visual de información cuantitativa, Edward Tufte