Más allá del aprendizaje profundo: evaluación y mejora del rendimiento del modelo para datos tabulares con XGBoost y conjuntos

Para resolver problemas de ciencia de datos del mundo real, la selección de modelos es crucial. Los modelos de conjunto de árboles como XGBoost son tradicionalmente los preferidos para la clasificación y regresión de datos tabulares. A pesar de su éxito, recientemente han surgido modelos de aprendizaje profundo que afirman tener un rendimiento superior en ciertos conjuntos de datos tabulares. Si bien las redes neuronales profundas se destacan en campos como el procesamiento de imágenes, audio y texto, su aplicación a datos tabulares presenta desafíos debido a la escasez de datos, los tipos de características mixtos y la falta de transparencia. Si bien se han propuesto nuevos enfoques de aprendizaje profundo para datos tabulares, la evaluación y la evaluación comparativas inconsistentes hacen que no quede claro si realmente superan a los modelos establecidos como XGBoost.

Los investigadores del grupo de inteligencia artificial de TI de Intel compararon rigurosamente los modelos de aprendizaje profundo con XGBoost para datos tabulares a fin de determinar su eficacia. Al evaluar el rendimiento en varios conjuntos de datos, descubrieron que XGBoost superó sistemáticamente a los modelos de aprendizaje profundo, incluso en conjuntos de datos utilizados originalmente para mostrar los modelos profundos. Además, XGBoost requirió un ajuste de hiperparámetros significativamente menor. Sin embargo, la combinación de modelos profundos con XGBoost en un conjunto arrojó los mejores resultados, superando tanto a XGBoost como a los modelos profundos independientes. Este estudio destaca que, a pesar de los avances en el aprendizaje profundo, XGBoost sigue siendo una opción superior y eficiente para los problemas de datos tabulares.

Tradicionalmente, los árboles de decisión potenciados por gradientes (GBDT), como XGBoost, LightGBM y CatBoost, dominan las aplicaciones de datos tabulares debido a su excelente rendimiento. Sin embargo, estudios recientes han introducido modelos de aprendizaje profundo diseñados para datos tabulares, como TabNet, NODE, DNF-Net y 1D-CNN, que prometen superar a los métodos tradicionales. Estos modelos incluyen árboles diferenciables y enfoques basados en la atención, pero los GBDT siguen siendo competitivos. El aprendizaje conjunto, que combina varios modelos, puede mejorar aún más el rendimiento. Los investigadores evaluaron estos modelos profundos y GBDT en diversos conjuntos de datos y descubrieron que XGBoost generalmente sobresale, pero la combinación de modelos profundos con XGBoost produce los mejores resultados.

El estudio comparó exhaustivamente los modelos de aprendizaje profundo y los algoritmos tradicionales como XGBoost en 11 conjuntos de datos tabulares variados. Los modelos de aprendizaje profundo examinados incluyeron NODE, DNF-Net y TabNet, y se evaluaron junto con XGBoost y enfoques de conjunto. Estos conjuntos de datos, seleccionados de repositorios destacados y concursos de Kaggle, mostraron una amplia gama de características en términos de características, clases y tamaños de muestra. Los criterios de evaluación abarcaron la precisión, la eficiencia en el entrenamiento y la inferencia, y el tiempo necesario para el ajuste de hiperparámetros. Los hallazgos revelaron que XGBoost superó consistentemente a los modelos de aprendizaje profundo en la mayoría de los conjuntos de datos que no formaban parte de los conjuntos de entrenamiento originales de los modelos. Específicamente, XGBoost logró un rendimiento superior en 8 de 11 conjuntos de datos, lo que demuestra su versatilidad en diferentes dominios. Por el contrario, los modelos de aprendizaje profundo mostraron su mejor rendimiento solo en los conjuntos de datos para los que fueron diseñados originalmente, lo que implica una tendencia a sobreajustar sus datos de entrenamiento iniciales.

Además, el estudio examinó la eficacia de combinar modelos de aprendizaje profundo con XGBoost en métodos de conjunto. Se observó que los conjuntos que integraban tanto modelos profundos como XGBoost a menudo arrojaban resultados superiores en comparación con los modelos individuales o conjuntos de modelos de aprendizaje automático clásicos como SVM y CatBoost. Esta sinergia resalta las fortalezas complementarias del aprendizaje profundo y los modelos basados en árboles, donde las redes profundas capturan patrones complejos y XGBoost proporciona un rendimiento generalizado y robusto. A pesar de las ventajas computacionales de los modelos profundos, XGBoost demostró ser significativamente más rápido y más eficiente en la optimización de hiperparámetros, convergiendo hacia un rendimiento óptimo con menos iteraciones y recursos computacionales. En general, los hallazgos subrayan la necesidad de una consideración cuidadosa de la selección de modelos y los beneficios de combinar diferentes enfoques algorítmicos para aprovechar sus fortalezas únicas para varios desafíos de datos tabulares.

El estudio evaluó el desempeño de los modelos de aprendizaje profundo en conjuntos de datos tabulares y descubrió que, en general, son menos efectivos que XGBoost en conjuntos de datos fuera de sus artículos originales. Un conjunto de modelos profundos y XGBoost tuvo un mejor desempeño que cualquier modelo individual o conjunto clásico, lo que resalta las fortalezas de la combinación de métodos. XGBoost fue más fácil de optimizar y más eficiente, lo que lo hace preferible en condiciones de limitaciones de tiempo. Sin embargo, la integración de modelos profundos puede mejorar el desempeño. Las investigaciones futuras deberían probar los modelos en diversos conjuntos de datos y centrarse en el desarrollo de modelos profundos que sean más fáciles de optimizar y puedan competir mejor con XGBoost.

Revisar la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 46 000 suscriptores de ML en Reddit

Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Más allá del aprendizaje profundo: evaluación y mejora del rendimiento del modelo para datos tabulares con XGBoost y conjuntos

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Moonshot AI lanza Kimi K2.7-Code: un modelo de codificación que reporta un +21,8 % en Kimi Code Bench v2 sobre K2.6

Pensé que la ingeniería de datos era solo escribir guiones. Me equivoqué.

Una implementación de codificación en redes neuronales de gráficos espaciales para la inferencia de funciones urbanas utilizando city2graph, OSMnx y PyTorch Geométrico

You missed

Moonshot AI lanza Kimi K2.7-Code: un modelo de codificación que reporta un +21,8 % en Kimi Code Bench v2 sobre K2.6

Los hombres pueden perder su cromosoma Y con la edad y finalmente sabemos el costo: ScienceAlert

¿Inmigración o independencia? La ‘prioridad nacional’ de los votantes de Aliança Catalana

PRUEBA DE TAXI EN ORIHUELA FURIA CUANDO 20 DE 22 CONDUCTORES SUSPENDAN POR PREGUNTAS ‘RIDICULAS’ – El Líder