Podemos dividir la fórmula de Información Mutua en las siguientes partes:
El x, x y y, y
X y y son las observaciones/valores individuales que vemos en nuestros datos. X y Y son solo el conjunto de estos valores individuales. Un buen ejemplo sería el siguiente:
Y suponiendo que tenemos 5 días de observaciones de Bob en esta secuencia exacta:
Probabilidad individual/marginal
Éstas son sólo la simple probabilidad de observar un determinado X o y en sus respectivos conjuntos de posibles X y Y valores.
Llevar x = 1 como ejemplo: la probabilidad es simplemente 0,4 (Bob llevó un paraguas 2 de los 5 días de sus vacaciones).
Probabilidad conjunta
Esta es la probabilidad de observar un determinado X y y de la probabilidad conjunta de (X, Y). La probabilidad conjunta (X,Y) es simplemente el conjunto de observaciones pareadas. Los emparejamos según su índice.
En nuestro caso con Bob, emparejamos las observaciones según el día en que ocurrieron.
Es posible que se sienta tentado a sacar una conclusión precipitada después de observar los pares:
Dado que hay pares de igual valor que ocurren el 80% del tiempo, significa claramente que la gente lleva paraguas ¡PORQUE está lloviendo!
Bueno, estoy aquí para hacer de abogado del diablo y decir que puede ser simplemente una extraña coincidencia:
Si la probabilidad de que llueva es muy baja en Singapur e, independientemente, la probabilidad de que Bob lleve un paraguas también es igualmente baja (porque odia tener cosas extra), ¿puedes ver que las probabilidades de que llueva son muy bajas en Singapur? (0,0) las observaciones pareadas serán muy altas naturalmente?
Entonces, ¿qué podemos hacer para demostrar que estas observaciones pareadas no son una coincidencia?
Probabilidades conjuntas versus individuales
Podemos tomar la razón de ambas probabilidades para darnos una pista sobre el “grado de coincidencia”.
En el denominador, tomamos el producto de ambas probabilidades individuales de un determinado X y particular y ocurriendo. ¿Por qué lo hicimos?
Mirando el humilde lanzamiento de una moneda
Recuerde la primera lección que tomó en la clase de estadística: calcular la probabilidad de obtener 2 caras en 2 lanzamientos de una moneda justa.
- 1er lanzamiento [ p(x) ]: Hay un 50% de posibilidades de obtener cara
- 2do lanzamiento [ p(y) ]: Todavía hay un 50% de posibilidades de obtener cara, ya que el resultado es independiente de lo que pasó en el 1er lanzamiento
- Los 2 lanzamientos anteriores constituyen sus probabilidades individuales.
- Por lo tanto, la teórico La probabilidad de obtener ambas caras en 2 lanzamientos independientes es 0,5 * 0,5 = 0,25 ( p(x).p(y) )
Y si realmente haces unas 100 series de ese experimento de doble lanzamiento de moneda, probablemente verás que obtienes el (cabezas, cabezas) resultado el 25% de las veces. Las 100 series de experimentos son en realidad tu (X,Y) conjunto de probabilidad conjunta!
Por lo tanto, cuando se toma la proporción de probabilidades conjuntas versus probabilidades individuales combinadas, se obtiene un valor de 1.
En realidad esto es lo real. expectativa de eventos independientes: ¡la probabilidad conjunta de que ocurra un par específico de valores es exactamente igual al producto de sus probabilidades individuales! Justo lo que te enseñaron en estadística fundamental.
Ahora imagina que tu experimento de 100 series produjo (cabezas, cabezas) El 90% del tiempo. Seguramente eso no puede ser una coincidencia…
Esperabas un 25% porque sabes que son eventos independientes, pero lo que se observó es un sesgo extremo de esta expectativa.
Para poner este sentimiento cualitativo en números, la proporción de probabilidades es ahora enorme. 3,6 (0,9/0,25)esencialmente 3,6 veces más frecuente de lo que esperábamos.
Como tal, empezamos a pensar que tal vez los lanzamientos de moneda fueron no independiente. Quizás el resultado del primer lanzamiento podría tener algún efecto inexplicable en el segundo lanzamiento. Tal vez Hay algún nivel de asociación/dependencia entre el 1.er y 2.º lanzamiento..
Eso es lo que La información mutua intenta contar ¡a nosotros!
Valor esperado de las observaciones
Para ser justos con Bob, no deberíamos limitarnos a fijarnos en los momentos en los que sus afirmaciones son erróneas, es decir, calcular la relación de probabilidades de (0,0) y (1,1).
También deberíamos calcular la proporción de probabilidades de que sus afirmaciones sean correctas, es decir, (0,1) y (1,0).
A partir de entonces, podemos agregar los 4 escenarios en un método de valor esperado, que simplemente significa “tomar el promedio”: sumar todas las proporciones de probabilidades para cada par observado en (X,Y)luego divídelo por el número de observaciones.
Ese es el propósito de estos dos términos sumatorios. Para variables continuas como mi ejemplo del mercado de valores, usaremos integrales.
Logaritmo de razones
De manera similar a cómo calculamos la probabilidad de obtener 2 caras consecutivas al lanzar una moneda, ahora también estamos calculando la probabilidad adicional de ver los 5 pares que observamos.
Para el lanzamiento de la moneda, calculamos por multiplicando las probabilidades de cada lanzamiento. Para Bob, es lo mismo: el las probabilidades tienen efecto multiplicativo entre sí para darnos la secuencia que observamos en el conjunto conjunto.
Con logaritmos, tenemos convertir los efectos multiplicativos en aditivos unos:
Al convertir la razón de probabilidades a sus variantes logarítmicas, ahora podemos simplemente calcular el valor esperado como descrito arriba usando suma de sus logaritmos.
Siéntase libre de utilizar log-base 2, mio 10, no importa a los efectos de este artículo.
Poniendolo todo junto
Ahora demostremos que Bob está equivocado calculando la información mutua. Usaré base de registro mi (logaritmo natural) para mis cálculos:
Entonces, ¿cuál es el valor de 0.223 ¿Dinos?
Primero supongamos que Bob tiene razón y que el uso de paraguas es independiente por presencia de lluvia:
- Sabemos que la probabilidad conjunta será exactamente igual al producto de las probabilidades individuales.
- Por lo tanto, por cada X y y permutación, la relación de probabilidades = 1.
- Tomando el logaritmo, eso equivale a 0.
- Por lo tanto, el valor esperado de todas las permutaciones (es decir, información mutua) es 0.
Pero dado que el puntaje de información mutua que calculamos es distinto de cero¡podemos demostrarle a Bob que está equivocado!