Uno de los mayores dones de las matemáticas es su extraña capacidad de ser tan generales como lo permite nuestra creatividad. Una consecuencia importante de esta generalización es que podemos utilizar el mismo conjunto de herramientas para crear formalismos para temas muy diferentes. Un efecto secundario de cuando hacemos esto es que aparecerán algunas analogías inesperadas entre estas diferentes áreas. Para ilustrar lo que digo, intentaré convencerte, a través de este artículo, de que los valores principales en las coordenadas PCA y las energías de un sistema cuántico son la misma cosa (matemática).
Para aquellos que no estén familiarizados con el Análisis de Componentes Principales (o PCA), lo formularé como mínimo. La idea principal de PCA es, basándose en sus datos, obtener un nuevo conjunto de coordenadas de modo que cuando nuestros datos originales se reescriban en este nuevo sistema de coordenadas, los ejes apunten en la dirección de la variación más alta.
Suponga que tiene un conjunto de norte muestras de datos (a las que me referiré de ahora en adelante como individuos), donde cada individuo está formado por metro características. Por ejemplo, si pregunto por el peso, la altura y el salario de 10 personas diferentes, norte=10 y metro=3. En este ejemplo, esperamos alguna relación entre el peso y la altura, pero no existe ninguna relación entre estas variables y el salario, al menos no en principio. PCA nos ayudará a visualizar mejor estas relaciones. Para que entendamos cómo y por qué sucede esto, repasaré cada paso del algoritmo PCA.
Para comenzar el formalismo, cada individuo estará representado por un vector X, donde cada componente de este vector es una característica. Esto significa que tendremos norte vectores que viven en un metro-espacio dimensional. Nuestro conjunto de datos puede considerarse como una gran matriz. X, metro X nortedonde esencialmente colocamos a los individuos uno al lado del otro (es decir, cada individuo se representa como un vector de columna):
Con esto en mente, podemos iniciar correctamente el algoritmo PCA.
Centralizar los datos
Centralizar nuestros datos significa desplazar los puntos de datos de manera que se distribuyan alrededor del origen de nuestro sistema de coordenadas. Para hacer esto, calculamos la media de cada característica y la restamos de los puntos de datos. Podemos expresar la media de cada característica como un vector. µ:
dónde µ_i es la media tomada para i-ésima característica. Centralizando nuestros datos obtenemos una nueva matriz B dada por:
Esta matriz B representa nuestro conjunto de datos centrado alrededor del origen. Observe que, dado que estoy definiendo el vector medio como una matriz de filas, tengo que usar su transponer calcular B (donde cada individuo está representado por una matriz de columnas), pero esto es sólo un detalle menor.
Calcular la matriz de covarianza
Podemos calcular la matriz de covarianza, Smultiplicando la matriz B y su transpuesta B^T Como se muestra abajo:
el 1/(norte-1) El factor al frente es simplemente hacer que la definición sea igual a la definición estadística. Se puede demostrar fácilmente que los elementos S_ij de la matriz anterior son las covarianzas de la característica i con la característica jy su entrada diagonal S_ii es la varianza de la i-a característica.
Encuentre los valores propios y vectores propios de la matriz de covarianza.
Enumeraré tres hechos importantes del álgebra lineal (que no probaré aquí) sobre la matriz de covarianza. S que hemos construido hasta ahora:
- La matriz S es simétrico: las entradas reflejadas con respecto a la diagonal son iguales (es decir, S_ij = S_ji);
- La matriz S es ortogonalmente diagonalizable: existe un conjunto de números (λ_1, λ_2,…, λ_m) llamado valores propiosy un conjunto de vectores (v_1, v_2…, v_m) llamado vectores propiosde modo que, cuando S se escribe utilizando los vectores propios como base, tiene forma diagonal y los elementos diagonales son sus valores propios;
- La matriz S sólo tiene valores propios reales y no negativos.
En el formalismo PCA, los vectores propios de la matriz de covarianza se denominan componentes principales y los valores propios se denominan valores principales.
A primera vista, parece sólo un montón de operaciones matemáticas en un conjunto de datos. Pero les daré un último dato de álgebra lineal y terminamos con las matemáticas por hoy:
4. La traza de una matriz (es decir, la suma de sus términos diagonales) es independiente de la base en la que se representa la matriz.
Esto significa que, si la suma de los términos de la diagonal en la matriz S es la varianza total de ese conjunto de datos, entonces la suma de las valores propios de matriz S es también la varianza total del conjunto de datos. Llamemos a esta varianza total l.
Teniendo este mecanismo en mente, podemos ordenar los valores propios (λ_1, λ_2,…, λ_m) en orden descendente: λ_1 > λ_2 > … > λ_m de manera que λ_1/l > λ_2/l > … > λ_m/l. Hemos ordenado nuestros valores propios utilizando la varianza total de nuestro conjunto de datos como métrica de importancia. El primer componente principal, v_1, apunta hacia la dirección de la varianza más grande porque su valor propio, λ_1, representa la mayor contribución a la varianza total.
Esto es PCA en pocas palabras. Ahora… ¿qué pasa con la mecánica cuántica?
Quizás el aspecto más importante de la mecánica cuántica para nuestra discusión aquí sea uno de sus postulados:
Los estados de un sistema cuántico se representan como vectores (generalmente llamados vectores de estado) que viven en un espacio vectorial, llamado espacio de Hilbert.
Mientras escribo esto, me di cuenta de que este postulado me parece muy natural porque lo veo todos los días y me he acostumbrado. Pero es un poco absurdo, así que tómate tu tiempo para asimilarlo. Tener en cuenta que estado es un término genérico que usamos en física y que significa “la configuración de algo en un momento determinado”.
Este postulado implica que cuando representamos nuestro sistema físico como vector, aquí se aplican todas las reglas del álgebra lineal, y no debería sorprender que surjan algunas conexiones entre PCA (que también se basa en el álgebra lineal) y la mecánica cuántica.
Dado que la física es la ciencia interesada en cómo cambian los sistemas físicos, deberíamos poder representar cambios en el formalismo de la mecánica cuántica. A cambiar un vector, debemos aplicarle algún tipo de operación utilizando una entidad matemática llamada (como era de esperar) operador. Una clase de operadores de particular interés es la clase de operadores lineales; de hecho, son tan importantes que normalmente omitimos el término “lineal” porque se da a entender que cuando hablamos de operadores, estos son operadores lineales. Por lo tanto, si quieres impresionar a la gente en la mesa de un bar, simplemente suelta esta bomba:
En mecánica cuántica, se trata de vectores (de estado) y operadores (lineales).
Medidas en mecánica cuántica.
Si en el contexto de la mecánica cuántica los vectores representan estados físicos, ¿qué representan los operadores? Bueno, representan física. mediciones. Por ejemplo, si quiero medir la posición de una partícula cuántica, en mecánica cuántica se modela aplicando un operador de posición en el vector de estado asociado con la partícula. De manera similar, si quiero medir la energía de una partícula cuántica, debo aplicarle el operador de energía. El último truco aquí para conectar la mecánica cuántica y el PCA es recordar que un operador lineal, cuando se elige una base, se puede representar como una matriz.
Una base muy común utilizada para representar nuestros sistemas cuánticos es la base formada por los vectores propios del operador energético. Sobre esta base, la matriz del operador de energía es diagonal y sus términos diagonales son las energías del sistema para diferentes estados (eigen) de energía. La suma de estos valores de energía corresponde a la traza de su operador de energía, y si se detiene y piensa en ello, por supuesto esto no puede cambiar bajo un cambio de base, como se dijo anteriormente en este texto. Si cambiara, implicaría que debería ser posible cambiar la energía de un sistema escribiendo sus componentes de manera diferente, lo cual es absurdo. A tu aparato de medición en el laboratorio no le importa si usas la base A o B para representar tu sistema: si mides la energía, mides la energía y eso es todo.
Dicho todo esto, una buena interpretación de los valores principales de una descomposición de PCA es que corresponden a la “energía” de su sistema. Cuando escribe sus valores principales (y componentes principales) en orden descendente, está dando prioridad a los “estados” que transportan las “energías” más grandes de su sistema.
Esta interpretación puede ser algo más reveladora que intentar interpretar una cantidad estadística como la varianza. Creo que tenemos una mejor intuición sobre la energía ya que es un concepto físico fundamental.
“Todo esto es bastante obvio”. Esta fue una provocación hecha por mi más querido amigo. rodrigo da mottarefiriéndose al artículo que acabas de leer.
Cuando escribo publicaciones como esta, trato de explicar las cosas teniendo en cuenta al lector con un contexto mínimo. Este ejercicio me llevó a la conclusión de que, con los antecedentes adecuados, casi cualquier cosa puede ser potencialmente obvia. Rodrigo y yo somos físicos y además científicos de datos, por lo que esta relación entre la mecánica cuántica y el PCA debe ser bastante obvia. para nosotros.
Escribir publicaciones como esta me da más razones para creer que debemos exponernos a todo tipo de conocimientos porque es entonces cuando surgen conexiones interesantes. El mismo cerebro humano que piensa y crea la comprensión de la física es el que crea la comprensión de la biología, la historia y el cine. Si las posibilidades del lenguaje y las conexiones de nuestro cerebro son finitas, significa que, de manera continua o no, eventualmente reciclamos conceptos de un campo a otro, y esto crea estructuras compartidas subyacentes en todos los dominios del conocimiento.
Nosotros, como científicos, deberíamos aprovechar esto.
[1] Álgebra lineal de PCA: https://www.math.union.edu/~jaureguj/PCA.pdf
[2] Los postulados de la mecánica cuántica: https://web.mit.edu/8.05/handouts/jaffe1.pdf