Cómo elegir matemáticamente los contenedores óptimos para su histograma

¿Alguna vez te has preguntado cómo elegir tus contenedores en un histograma? ¿Alguna vez te has preguntado si existen razones más profundas para tomar decisiones que van más allá de simplemente verse bien? Si bien los histogramas son la herramienta más fundamental para la visualización de datos, establecer su resolución es importante, especialmente cuando el histograma en sí se utiliza para análisis posteriores. Los histogramas suelen calcularse para visualizar la densidad de los datos. En esta publicación, exploramos las matemáticas del ajuste de densidad, analizando específicamente cómo los contenedores deberían reducirse a medida que crece nuestro conjunto de datos. Inspirándonos en campos adyacentes como la teoría de perturbaciones en física y las expansiones de Taylor en matemáticas, encontraremos un método riguroso para construir densidades.

Todas las imágenes son del autor.

Fondo

Aproximaciones

La intuición es simple: cuantos más datos tenga, más detalles debería poder ver. Si está observando una muestra de diez observaciones, es probable que todo lo que pueda permitirse sea dos o tres contenedores anchos antes de que su visualización se convierta en una colección escasa de espacios vacíos. Pero si tienes diez millones de observaciones, esos amplios contenedores empiezan a parecer una fotografía pixelada de baja resolución. Desea “acercar” aumentando el número de contenedores. La pregunta, sin embargo, es: ¿cómo debemos escalar exactamente esta resolución?

En física, cuando nos enfrentamos a un sistema que es demasiado complejo para resolverlo exactamente, a menudo recurrimos a la teoría de la perturbación. En electrodinámica cuántica (QED), por ejemplo, aproximamos interacciones complejas expandiéndolas en términos de una pequeña constante de acoplamiento, como la carga del electrón e.. Esta “fuerza de interacción” proporciona una jerarquía natural para nuestras aproximaciones. Pero para un histograma, ¿cuál es la “carga” análoga? ¿Existe un parámetro fundamental que gobierna la interacción entre nuestros puntos de datos discretos y la distribución subyacente que estamos tratando de estimar?

Las matemáticas ofrecen otro camino: la Expansión de Taylor. Si asumimos que la función de densidad subyacente es suficientemente suave (analítica), podemos describirla localmente usando sus derivadas. Esto parece una pista prometedora, ya que se puede demostrar que los órdenes superiores desaparecen. Aunque es posible que deseemos aceptar una restricción a las distribuciones analíticas, no está claro cómo esto conduce a un determinado tamaño de contenedor.

Alternativamente, podríamos tratar el problema como una expansión de funciones básicas. Así como podemos representar una función continua por partes usando una transformada de Fourier o polinomios de Legendre, podríamos ver los contenedores de histogramas como un conjunto de funciones básicas. Usando este enfoque podríamos aproximar la función en términos de L2. Pero este enfoque presenta su propia serie de obstáculos. ¿Cómo calculamos los coeficientes de estas funciones de manera eficiente? Y más importante aún, ¿cómo satisfacemos las restricciones físicas de una función de densidad de probabilidad? A diferencia de una serie general de Fourier, una función de densidad debe ser estrictamente definida positiva y normalizada a uno. Veremos a continuación que el método obtenido de la teoría de la información tiene aspectos similares a la expansión en funciones de base.

Teoría de la información

Anteriores y posteriores

Para obtener una introducción a la estadística bayesiana o la teoría de la información, se remite al lector (Murphy, 2022). En un enfoque bayesiano, un modelo P(X|θ)P(X|\theta) , donde X son los observables que queremos modelar y θ\theta son nuestros parámetros, también contiene una distribución previa 𝑃(𝜃|ℳ) que refleja nuestra creencia en la distribución antes de que se observaran los datos. Una vez observados los datos, podemos estimar la distribución posterior P(θ|X)P(\theta | X)

𝑃(𝜃|𝑋) = 𝑃(𝑋|𝜃)𝑃(𝜃|ℳ)/𝑃(𝑋)

Este procedimiento es matemáticamente elegante porque es 100% seguro contra el sobreajuste. Sin embargo, exige una disciplina estricta: no se nos permite elegir nuestro modelo o prior después de haber visto los datos. Si utilizamos los datos para decidir qué estructura de modelo usar, rompemos la lógica subyacente de la inferencia.

El modelo más probable dados los datos versus la ponderación del modelo

La calidad de un modelo se puede calcular considerando su sorpresa (ver, por ejemplo, (Vries, 2026))

log 𝑃(𝑋|ℳ) = −sorpresa = precisión – complejidad

Los modelos con un número excesivo de parámetros (porque uno puede verse tentado a incluir todo tipo de interacciones hipotéticas) pueden alcanzar una precisión increíble, pero son “muertos” por el castigo de su propia complejidad. El modelo ideal no es el más detallado; es el que captura más información con la menor cantidad de equipaje innecesario.

Al considerar un conjunto de modelos, se puede calcular la probabilidad de cada modelo en comparación con los modelos considerados.

𝑃(ℳ𝑖 ∣ 𝑋) ~ 𝑃(𝑋 | ℳ𝑖) 𝑃(ℳ𝑖 )

Es tentador simplemente elegir el modelo con mayor probabilidad y seguir adelante. Pero este enfoque de “el ganador se lo lleva todo” conlleva riesgos:

Fluctuaciones estadísticas: los datos 𝑋 pueden contener una casualidad aleatoria que hace que un modelo subóptimo parezca temporalmente superior. El peso de la multitud: A veces, la suma de muchos modelos “menos probables” en realidad supera la probabilidad del “mejor” modelo.

Debido a esto, un camino más sólido es llevar adelante todos los modelos, ponderándolos según su probabilidad. Es importante señalar que esto no es una “mezcla” de diferentes verdades; Todavía asumimos que sólo un modelo es realmente cierto, pero utilizamos la distribución completa de posibilidades para explicar nuestra propia incertidumbre.

Densidades

Una densidad que utiliza el enfoque bayesiano.

Para tratar una densidad como modelo formal, consideramos cada uno de sus 𝐾 bins como un parámetro. Específicamente, asignamos un peso wkw_k a cada contenedor, que representa la probabilidad de que un punto de datos caiga en ese intervalo. Debido a que la probabilidad total debe sumar uno (∑kwk=1\sum_k w_k=1), una densidad con 𝐾 bins se define mediante 𝐾 −1 parámetros independientes; estos modelos también se denominan mezclas. En nuestro marco bayesiano, debemos asignar un valor previo a estos pesos. Dado que estamos tratando con proporciones categóricas que deben sumar uno, la distribución de Dirichlet es la elección matemáticamente natural.

Elegir los hiperparámetros

La distribución de Dirichlet se rige por hiperparámetros, a menudo denominados 𝛼. Estos valores representan nuestros “pseudo-recuentos”, esencialmente cómo creemos que se ve la densidad antes de
Incluso he visto el primer dato. Cuando asumimos un a priori plano (donde la evidencia 𝑃(𝑋) es constante), surgen dos estrategias principales para elegir 𝛼:

𝛼 =1/𝐾 (La elección dispersa): esto se usa a menudo cuando esperamos que los datos estén muy concentrados. Se supone a priori que la mayoría de los contenedores estarán vacíos, lo que lo convierte en un a priori que “promueve la escasez”. 𝛼 =1 (La elección uniforme): también conocido como prior plano o de Laplace, supone que todas las distribuciones posibles de pesos son igualmente probables. Básicamente, agrega una observación “virtual” a cada contenedor antes de que lleguen los datos reales.

Para construir una densidad estándar, la segunda opción 𝛼 = 1 suele ser la más natural. Refleja un punto de partida neutral en el que asumimos que los datos están distribuidos uniformemente a lo largo del intervalo hasta que la evidencia demuestre lo contrario.

Al definir nuestros contenedores de esta manera, hemos transformado la “pixelación” de una densidad en un modelo riguroso. Ahora tenemos un conjunto fijo de parámetros (𝐾 − 1 pesos) y un previo claro (𝛼 = 1). El siguiente paso es utilizar los datos para determinar el número óptimo de contenedores 𝐾 equilibrando la precisión del ajuste con la complejidad de los parámetros.

Ejemplo

Mire los datos en la siguiente figura:

Al equipar con 8 contenedores obtenemos:

Lo que se puede ver en esta densidad es que el contenedor más a la derecha está por encima de cero, aunque no había puntos de datos presentes en este contenedor. Este es el resultado del enfoque bayesiano que estima la densidad creída en función de nuestra creencia previa y los datos que observamos.

Resumiendo, obtuvimos una densidad utilizando un enfoque bayesiano. Definimos una 𝑃(𝜃) previa que reflejaba nuestra expectativa de una densidad uniforme. Luego tomamos los datos y calculamos la 𝑃(𝜃|𝑋) posterior que subyace a la densidad resultante.

Densidades ponderadas

Usando el enfoque de la sección anterior podemos hacer densidades usando 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 y 1024 contenedores. Más contenedores proporcionan un ajuste más preciso de los datos, pero también introducen complejidades adicionales. Como se analizó en la sección anterior, se puede utilizar la precisión y la complejidad para calcular su evidencia. Al considerar cada densidad como un modelo, podemos calcular su probabilidad de ser cierta en comparación con el conjunto de modelos que estamos considerando. Esto produce la siguiente figura:

En la sección anterior se discutió que se puede elegir el “mejor” modelo que en este caso sería el uso de 8 contenedores. Sin embargo, es más seguro tomar una suma ponderada entre todos los modelos. Este
rendimientos:

Es importante comprender que desde una perspectiva bayesiana esto es lo mejor que podemos hacer. Tenga en cuenta también que en este gráfico hay una densidad presente de 1024 contenedores. Por último, se puede demostrar que las densidades de órdenes superiores N disminuirán.

Densidades con contenedores desiguales

La densidad obtenida anteriormente parece un poco en bloques, lo que se origina en la elección de utilizar contenedores iguales. Hay otras opciones disponibles, como realizar divisiones aleatorias (y compensar al anterior por ello). Esto produce el siguiente gráfico:

Densidades con barras de error.

Ahora bien, para cerrar la construcción de densidades, puede ser interesante visualizar nuestra incertidumbre en estas densidades. Aunque su cálculo es numéricamente costoso, la expresión para calcular la desviación estándar de la densidad es notablemente sencilla (F. Pijlman, 2023).

σP(x|X)2=P(x|X)(P(x|x,X)−P(x|X))\sigma_{P(x|X)}^2 = P(x|X) \left( P(x|{x,X}) – P(x|X) \right)

Esto produce las siguientes densidades:

Conclusiones

Comenzamos con una pregunta simple: ¿Existe una base matemática para elegir los contenedores en un histograma? Como el concepto de contenedores conecta inherentemente puntos de datos con densidades, estudiamos cómo
para elegir contenedores para densidades.

Utilizando un enfoque bayesiano (teoría de la información), se pueden ajustar densidades sin tener que preocuparse por un ajuste excesivo (demasiados contenedores que muestran demasiados detalles). Aunque se puede calcular el “mejor” ancho de contenedor, vimos que:

La ponderación del modelo nos permite combinar múltiples resoluciones, proporcionando una representación más fluida y honesta de los datos. Dirichlet Priors nos brinda una forma rigurosa de expresar nuestros supuestos iniciales sobre la distribución de datos.

Así como la teoría de la perturbación proporciona una jerarquía para las interacciones físicas, este marco bayesiano proporciona una jerarquía para la resolución de datos. La resolución aumenta naturalmente a medida que hay más datos disponibles. Tenga en cuenta que estas ideas también se pueden utilizar al aprender modelos en los que se tiene una expansión en las interacciones.

También se exploró el método de combinar densidades de varias resoluciones en caso de que se elijan contenedores aleatorios. Esto condujo a histogramas suaves que pueden parecer más naturales para la mayoría de los datos.
conjuntos.

También presentamos el uso de desviaciones estándar en histogramas. Aunque el cálculo de las desviaciones estándar se derivó de modelos bayesianos, su procedimiento de cálculo sugiere una aplicabilidad más amplia. Como tal, puede servir para visualizar las incertidumbres restantes en las densidades.

Expresiones de gratitud

El proyecto EdgeAI “Edge AI Technologies for Optimized Performance Embedded Processing” ha recibido financiación de Key Digital Technologies Joint Undermaking (KDT JU) en virtud del acuerdo de subvención n.º 101097300. KDT JU recibe apoyo del programa de investigación e innovación Horizonte Europa de la Unión Europea y de Austria, Bélgica, Francia, Grecia, Italia, Letonia, Luxemburgo, Países Bajos y Noruega.

Referencias

F. Pijlman, JL (2023). Variación de la probabilidad de los datos. https://sitb2023.ulb.be/proceedings/, 34/37. Murphy, K. (2022). Aprendizaje automático probabilístico: una introducción. Prensa del MIT. Vries, B. d. (2026). Inferencia activa para agentes físicos de IA. arXiv.

Biografía

Fetze Pijlman es científico principal de Signify Research en Eindhoven, Países Bajos. Su enfoque de investigación abarca el aprendizaje automático probabilístico, la inferencia bayesiana y el procesamiento de señales, con un interés particular en la aplicación de estos marcos matemáticos a la IoT, la detección y los sistemas inteligentes.