¡Domina la maldición de la dimensionalidad! Aprenda la reducción de dimensionalidad (PCA) e impleméntela con Python y Scikit-Learn.
En la novela Tierra plana, los personajes que viven en un mundo bidimensional se quedan perplejos e incapaces de comprender cuando se encuentran con un ser tridimensional. Utilizo esta analogía para ilustrar cómo ocurren fenómenos similares en el aprendizaje automático cuando se trata de problemas que involucran miles o incluso millones de dimensiones (es decir, características): suceden fenómenos sorprendentescual tiene implicaciones desastrosas en nuestros modelos de Machine Learning.
Estoy seguro de que te has sentido atónito, al menos una vez, por el gran cantidad de características involucrados en problemas modernos de aprendizaje automático. Todo practicante de la ciencia de datos, tarde o temprano, enfrentará este desafío. Este artículo explorará los fundamentos teóricos y la implementación en Python del algoritmo de reducción de dimensionalidad más utilizado: Análisis de componentes principales (PCA).
¿Por qué necesitamos reducir la cantidad de funciones?
Los conjuntos de datos que involucran miles o incluso millones de características son comunes hoy en día. Agregar nuevas funciones a un conjunto de datos puede aportar información valiosa; sin embargo, ralentizar el proceso de entrenamiento y hazlo Es más difícil encontrar buenos patrones y soluciones.. En ciencia de datos esto se llama Maldición de dimensionalidad y a menudo conduce a una interpretación sesgada de los datos y a predicciones inexactas.
Los profesionales del aprendizaje automático como nosotros podemos beneficiarnos del hecho de que, para la mayoría de los problemas de ML, el número de funciones se puede reducir constantemente. Por ejemplo, considere una imagen: los píxeles cerca del borde a menudo no contienen ninguna información valiosa. Sin embargo, las técnicas para reducir de forma segura la cantidad de funciones en un problema de ML no son triviales y necesitan una explicación que brindaré en esta publicación.
Las herramientas que presentaré no sólo simplificarán el esfuerzo de cálculo y aumentarán la precisión de la predicción, sino que también servirán como herramienta para visualizar gráficamente datos de alta dimensión. Para…