Análisis de componentes principales (PCA) a través de una lente de variable latente | por Natasha Stewart

Descripción general de PPCA, una extensión del PCA clásico, y su aplicación a datos incompletos a través del algoritmo EM

Foto por Tejedor Dhruv en Dejar de salpicarA medida que se repiten los pasos E y M del algoritmo EM, el algoritmo converge a los estimadores de máxima verosimilitud locales.

El análisis de componentes principales probabilístico (PPCA, por sus siglas en inglés) es una técnica de reducción de dimensionalidad que aprovecha un marco de variables latentes para recuperar las direcciones de varianza máxima en los datos. Cuando el ruido sigue una distribución gaussiana isótropa, los componentes principales probabilísticos estarán estrechamente relacionados con los componentes principales clásicos, idénticos hasta un factor de escala y una rotación ortogonal. Por lo tanto, el PPCA se puede utilizar para muchas de las mismas aplicaciones que el PCA clásico, como la visualización de datos y la extracción de características. El marco de variables latentes detrás del PPCA también ofrece una funcionalidad que el PCA clásico no tiene. Por ejemplo, el PPCA se puede ampliar fácilmente para dar cabida a datos con valores faltantes, mientras que el PCA clásico no está definido en datos incompletos.

El PPCA se puede implementar utilizando varios métodos diferentes. Tipping y Bishop proporcionaron una implementación del PPCA a través del algoritmo EM en su artículo original de 1999; sin embargo, no mostraron explícitamente cómo el algoritmo EM para el PPCA se extiende a datos incompletos. Un artículo anterior artículo En Towards Data Science se analizó un enfoque alternativo al PPCA, que utiliza la inferencia variacional en lugar del algoritmo EM para imputar los valores faltantes y derivar los componentes principales probabilísticos. Este enfoque parte del supuesto simplificador de que la desviación estándar del ruido se conoce de antemano, un supuesto que facilita la optimización de la distribución variacional pero que no es representativo de la mayoría de las aplicaciones. En esta publicación, me centraré en el algoritmo EM, ampliando los debates anteriores al ilustrar todos los pasos necesarios para ampliar el algoritmo EM de Tipping y Bishop para el PPCA a datos incompletos.

Descripción general de la PPCA y su relación con la PCA clásica:

El PCA clásico es un método determinista que no modela los datos en términos de componentes de señal y ruido diferenciados. Por el contrario, el PPCA se deriva de un modelo probabilístico de la forma

Análisis de componentes principales (PCA) a través de una lente de variable latente | por Natasha Stewart | Jul, 2024

ByEquipo de 7 minutos

Descripción general de PPCA, una extensión del PCA clásico, y su aplicación a datos incompletos a través del algoritmo EM

By Equipo de 7 minutos

Related Post

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

You missed

Los propietarios de vehículos eléctricos podrían ganar miles de dólares apoyando la red eléctrica

CRUZ DE LOS CAÍDOS DE CÁCERES

Especies de vida silvestre al borde del abismo en 2026

Lanzamiento del programa CIO Liderazgo emérito de London Business School