Una guía de 21 métodos y paquetes de funciones importantes en el aprendizaje automático (con código) |  de Theophano Mitsa |  diciembre de 2023

Desde los paquetes de interpretabilidad OmniXAI, Shapash y Dalex hasta los algoritmos de selección de características de Boruta, Relief y Random Forest.

Imagen creada por el autor en DALL-E

“Somos nuestras elecciones.” —Jean-Paul Sartre

Nosotros Vivimos en la era de la inteligencia artificial, principalmente debido al increíble avance de los modelos de lenguajes grandes (LLM). Tan importante como es para un ingeniero de ML aprender sobre estas nuevas tecnologías, igualmente importante es su capacidad para dominar los conceptos fundamentales de selección, optimización e implementación de modelos. Algo más es muy importante: el aporte a lo anterior, que consiste en la características de los datos. Los datos, al igual que las personas, tienen características llamadas características. En el caso de las personas, debes comprender sus características únicas para sacar lo mejor de ellas. Bueno, el mismo principio se aplica a los datos. Específicamente, este artículo trata sobre importancia de la característica, que mide la contribución de una característica a la capacidad predictiva de un modelo. Tenemos que entender la importancia de las características por muchas razones esenciales:

  • Tiempo: tener demasiadas funciones ralentiza el tiempo del modelo de entrenamiento y también la implementación del modelo. Esto último es particularmente importante en aplicaciones de vanguardia (móviles, sensores, diagnóstico médico).
  • Sobreajuste. Si nuestras características no se seleccionan cuidadosamente, podríamos hacer que nuestro modelo se sobreadapte, es decir, que también aprendamos sobre el ruido.
  • Maldición de dimensionalidad. Muchas características significan muchas dimensiones, y eso hace que el análisis de datos sea exponencialmente más difícil. Por ejemplo, clasificación k-NN, un algoritmo ampliamente utilizado, se ve muy afectado por el aumento de dimensión.
  • Adaptabilidad y transferencia de aprendizaje. Esta es mi razón favorita y en realidad la razón por la que escribí este artículo. En transferir aprendizaje, un modelo entrenado en una tarea se puede utilizar en una segunda tarea con algunos ajustes. Tener una buena comprensión de sus funciones en la primera y segunda tarea puede reducir en gran medida el ajuste que necesita realizar.

Nos centraremos en datos tabulares y discutiremos veintiún formas de evaluar la importancia de las características. Uno podría preguntarse: ‘¿Por qué veintiuna técnicas? ¿No es suficiente con uno? Es importante…