Los peligros de los gráficos de confusión de datos engañosos y titulares engañosos

“No tiene que ser un experto para engañar a alguien, aunque es posible que necesite algo de experiencia para reconocer de manera confiable cuándo está siendo engañado”.

Cuando mi coinstructor y yo comenzamos nuestra lección trimestral sobre visualizaciones engañosas para el curso de visualización de datos que enseñamos en la Universidad de Washington, enfatiza el punto anterior para nuestros estudiantes. Con el advenimiento de la tecnología moderna, desarrollar afirmaciones bonitas y convincentes sobre datos es más fácil que nunca. Cualquiera puede hacer algo que parezca pasable, pero contiene supervisión que lo hacen inexacto e incluso dañino. Además, también hay actores maliciosos que activamente desear para engañarte y quién ha estudiado algunas de las mejores formas de hacerlo.

A menudo empiezo esta conferencia con un poco de broma, mirando en serio a mis alumnos y haciendo dos preguntas:

  1. “¿Es bueno si alguien te está iluminando?”
  2. Después del murmullo general de confusión seguido de un acuerdo de que la iluminación de gas es realmente mala, hago la segunda pregunta: “¿Cuál es la mejor manera de garantizar que nadie lo ilumine?”

Los estudiantes generalmente reflexionan sobre esa segunda pregunta por un poco más, antes de reírse un poco y darse cuenta de la respuesta: Es aprender cómo la gente de la luz de gas en primer lugar. No puede aprovechar a los demás, pero para que pueda evitar que otros se aprovechen de usted.

Lo mismo se aplica en el ámbito de la información errónea y la desinformación. Las personas que desean engañar con datos están facultadas con una gran cantidad de herramientas, desde Internet de alta velocidad hasta las redes sociales hasta, más recientemente, la IA generativa y los modelos generativos de idiomas. Para protegerse de ser engañado, debe aprender sus trucos.

En este artículo, he tomado las ideas clave de la unidad del curso de visualización de datos sobre el engaño, tomado del excelente libro de Alberto El Cairo Cómo Gráficos Mentir– Y los amplió a algunos principios generales sobre el engaño y los datos. Espero que lo leas, lo internalices y lo lleves contigo para armarte contra la embestida de mentiras perpetuadas por personas mal intencionadas con datos.

Los humanos no pueden interpretar el área

Al menos, no tan bien como interpretamos otras señales visuales. Ilustramos esto con un ejemplo. Digamos que tenemos un conjunto de datos numéricos extremadamente simples; Es unidimensional y consta de solo dos valores: 50 y 100. Una forma de representar esto visualmente es a través de la longitud de las barras, como sigue:

Esto es cierto a los datos subyacentes. La longitud es una cantidad unidimensional, y la hemos duplicado para indicar una duplicación del valor. Pero, ¿qué sucede si queremos representar los mismos datos con círculos? Bueno, los círculos no están realmente definidos por una longitud o ancho. Una opción es duplicar el radio:

Mmm. El primer círculo tiene un radio de 100 píxeles, y el segundo tiene un radio de 50 píxeles, por lo que esto es técnicamente correcto si queríamos duplicar el radio. Sin embargo, debido a la forma en que se calcula esa área (πr²), hemos duplicado mucho el área. Entonces, ¿qué pasa si intentamos hacer eso, ya que parece más visualmente preciso? Aquí hay una versión revisada:

Ahora tenemos un problema diferente. El círculo más grande es matemáticamente el doble del área de la más pequeña, pero ya no es aspecto De esa manera. En otras palabras, a pesar de que es una comparación visualmente precisa de una cantidad duplicada, los ojos humanos tienen dificultades para percibirlo.

El problema aquí es tratar de usar el área como marcador visual en primer lugar. No es necesariamente equivocadopero es confuso. Estamos aumentando un valor unidimensional, pero el área es una cantidad bidimensional. Para el ojo humano, siempre será difícil interpretar con precisión, especialmente en comparación con una representación visual más natural como las barras.

Ahora, esto puede parecer que no es un gran problema, pero echemos un vistazo a lo que sucede cuando extiende esto a un conjunto de datos real. A continuación, he pegado dos imágenes de gráficos que hice en Altair (un paquete de visualización basado en Python). Cada gráfico muestra la temperatura máxima (en Celsius) durante la primera semana de 2012 en Seattle, EE. UU. El primero usa longitudes de barra para hacer la comparación, y el segundo usa áreas de círculo.

¿Cuál hace que sea más fácil ver las diferencias? La leyenda ayuda en la segunda, pero si estamos siendo honestos, es una causa perdida. Es mucho más fácil hacer comparaciones precisas con las barras, incluso en un entorno donde tenemos datos tan limitados.

Recuerde que el objetivo de una visualización es aclarar los datos, para que las tendencias ocultas sean más fáciles de ver para la persona promedio. Para lograr este objetivo, es mejor usar señales visuales que simplifiquen el proceso de hacer esa distinción.

Cuidado con los titulares políticos (en cualquier dirección)

Hay una pequeña pregunta de truco que a veces les hago a mis alumnos en una tarea en la cuarta semana de clase. La tarea implica principalmente generar visualizaciones en Python, pero para la última pregunta, les doy una tabla que yo mismo generé acompañado de una sola pregunta:

Pregunta: Hay una cosa atrozmente mal con la tabla anterior, un error imperdonable en Visualización de datos. ¿Qué es?

La mayoría piensa que tiene algo que ver con los ejes, marcas o algún otro aspecto visual, lo que a menudo sugiere mejoras como rellenar los círculos o hacer que las etiquetas del eje sean más informativas. Esas son buenas sugerencias, pero no las más apremiantes.

El rasgo más defectuoso (o la falta de ella, más bien) en la tabla anterior es el Título faltante. Un título es crucial para una visualización de datos efectiva. Sin ella, ¿cómo se supone que debemos saber de qué se trata esta visualización? A partir de ahora, solo podemos determinar que debe tener vagamente algo que ver con los niveles de dióxido de carbono durante un período de años. Eso no es mucho.

Muchas personas, sintiendo que este requisito es demasiado estricto, argumentan que una visualización a menudo está destinada a ser entendida en contexto, como parte de un artículo o comunicado de prensa más grande u otro texto que lo acompaña. Desafortunadamente, esta línea de pensamiento es demasiado idealista; En realidad, una visualización debe ser independiente, porque a menudo será lo único que la gente mira, y en los casos de explosión de las redes sociales, lo único que se comparte ampliamente. Como resultado, debe tener un título para explicarse.

Por supuesto, el título de esta misma subsección le dice que tenga cuidado con tales titulares. Eso es cierto. Si bien son necesarios, son una espada de doble filo. Dado que los diseñadores de visualización saben que los espectadores prestarán atención al título, los malos intencionados también pueden usarlo para influir en las personas en direcciones menos que precisas. Veamos un ejemplo:

Lo anterior es un imagen compartida por la cuenta pública de Twitter de la Casa Blanca en 2017. Alberto El Cairo también hace referencia a la imagen en su libro, que enfatiza muchos de los puntos que haré ahora.

Lo primero es lo primero. La palabra “migración en cadena”, que se refiere a lo que se conoce formalmente como migración familiar (donde un inmigrante puede patrocinar a los miembros de la familia para que vengan a los Estados Unidos), ha sido criticado por muchos que argumentan que es innecesariamente agresivo y hace que los inmigrantes legales sonar sin razón.

Por supuesto, la política es por su propia naturaleza divisiva, y es posible que cualquier lado haga un argumento acalorado. El problema principal aquí es en realidad un uno específico relacionado con los datos, lo que el uso de la palabra “cadena” implica en el contexto del gráfico compartido con el tweet. La migración de la “cadena” parece indicar que las personas pueden emigrar una tras otra, en una corriente aparentemente interminable, desinhibida y no perturbada por la distancia de las relaciones familiares. La realidad, por supuesto, es que Un solo inmigrante puede patrocinar en su mayoría miembros de la familia inmediata, e incluso eso lleva bastante tiempo. Pero cuando uno lee la frase “migración en cadena” y luego mira inmediatamente una tabla aparentemente sensata que lo representa, es fácil creer que un individuo puede generar inmigrantes adicionales en una tasa de crecimiento exponencial de Base-3.

Eso es el problema con cualquier tipo de titular político: hace que sea demasiado fácil ocultar los trabajos deshonestos e inexactos con el procesamiento, el análisis y la visualización de datos reales.

Hay No Datos subyacentes al cuadro anterior. Ninguno. Cero. Es completamente aleatorio, y eso no está bien para un gráfico que se hace a propósito para que parezca que está mostrando algo significativo y cuantitativo.

Como una pequeña madriguera de conejo divertida para que resalte los peligros del encabezado político dentro de los datos, aquí hay un enlace a Campos de pisouna cuenta de Twitter que publica los gráficos más absurdos que se muestran en el piso del Congreso de los Estados Unidos.

No uses 3D. Por favor.

Terminaré este artículo sobre un tema un poco más ligero, pero sigue siendo importante. Bajo ninguna circunstancia, ninguna en absoluto, debería utilizar una tabla 3D. Y si estás en el lugar del espectador, es decir, si estás mirando una tabla de pastel 3D hecha por otra persona, no confíes en él.

La razón de esto es simple y se conecta a lo que discutí con círculos y rectángulos: una tercera dimensión severamente distorsiona la actualidad detrás de lo que generalmente son medidas unidimensionales. El área ya era difícil de interpretar, ¿cómo crees realmente que el ojo humano lo hace con el volumen?

Aquí hay un gráfico de pastel 3D I generado con números aleatorios:

Ahora, aquí está exactamente el mismo gráfico circular, pero en dos dimensiones:

Observe cómo el azul no es tan dominante como parece sugerir la versión 3D, y que el rojo y el naranja están más cerca el uno del otro en tamaño que el retratado originalmente. También eliminé las etiquetas porcentuales intencionalmente (técnicamente malas prácticas) para enfatizar cómo incluso con las etiquetas presentes en la primera, nuestros ojos prestan más atención a las diferencias visuales más drásticas. Si está leyendo este artículo con un ojo analítico, tal vez crea que no hace una gran diferencia. Pero el hecho es que a menudo verás tales gráficos en las noticias o en las redes sociales, y una mirada rápida es todo lo que tendrán.

Es importante asegurarse de que la historia contada por esa mirada rápida sea veraz.

Pensamientos finales

La ciencia de datos a menudo se promociona como la síntesis perfecta de Estadísticainformática y sociedad, una forma de obtener y compartir ideas profundas y significativas sobre un mundo pesado de información. Esto es cierto, pero a medida que la capacidad de compartir ampliamente tales ideas se expande, también debe nuestra capacidad general para interpretarlas con precisión. Espero que a la luz de eso, haya encontrado que esta imprimación es útil.

Estén atentos para la Parte 2, en la que hablaré sobre algunas técnicas engañosas un poco más involucradas en la naturaleza, incluidas las proporciones base, (no) medidas estadísticas confiables y medidas de correlación.

Mientras tanto, trate de no ser engañado.