Los algoritmos de aprendizaje conjunto como XGBoost o Random Forests se encuentran entre los modelos de mayor rendimiento en las competiciones de Kaggle. ¿Cómo trabajan?
Los algoritmos de aprendizaje fundamentales como la regresión logística o la regresión lineal suelen ser demasiado simples para lograr resultados adecuados para un problema de aprendizaje automático. Si bien una posible solución es utilizar redes neuronales, requieren una gran cantidad de datos de entrenamiento, que rara vez están disponibles. Las técnicas de aprendizaje conjunto pueden mejorar el rendimiento de modelos simples incluso con una cantidad limitada de datos.
Imagínese pedirle a una persona que adivine cuántas gominolas hay dentro de un frasco grande. Es poco probable que la respuesta de una persona sea una estimación precisa del número correcto. En cambio, si hacemos la misma pregunta a mil personas, la respuesta promedio probablemente se aproximará al número real. Este fenómeno se llama sabiduría de la multitud [1]. Cuando se trata de tareas de estimación complejas, la multitud puede ser considerablemente más precisa que un individuo.
Los algoritmos de aprendizaje conjunto aprovechan este principio simple agregando las predicciones de un grupo de modelos, como regresores o clasificadores. Para una agregación de clasificadores, el modelo de conjunto podría simplemente elegir la clase más común entre las predicciones de los clasificadores de bajo nivel. En cambio, el conjunto puede utilizar la media o la mediana de todas las predicciones para una tarea de regresión.
Agregando un gran número de alumnos débiles, es decir, clasificadores o regresores que son sólo ligeramente mejores que las conjeturas aleatorias, podemos lograr resultados impensables. Considere una tarea de clasificación binaria. Al agregar 1000 clasificadores independientes con una precisión individual del 51%, podemos crear un conjunto que alcance una precisión del 75%. [2].
¡Ésta es la razón por la que los algoritmos conjuntos suelen ser las soluciones ganadoras en muchos concursos de aprendizaje automático!
Existen varias técnicas para construir un algoritmo de aprendizaje conjunto. Los principales son embolsar, impulsar y apilar. En el siguiente…