Conjuntos de conjuntos de conjuntos: una guía para apilar

el aprendizaje automático es un juego hipercompetitivo de ingeniería de conjuntos. La diferencia entre una ligera mejora en el tiempo de vuelta o las puntuaciones de pérdidas se puede medir en los millones de dólares que gana un equipo cuando hace lo necesario para ser el mejor. No sólo cada componente del sistema debe ser perfecto, sino que también debe ser perfecta la forma en que se une todo.

El estado del arte

Los modelos potenciados por gradiente han sido históricamente los modelos más competitivos para problemas de predicción de series temporales y tabulares. Estos son métodos de conjunto porque combinan los resultados de varios estimadores base para obtener una respuesta final que es mejor que cualquier predicción individual por sí sola. Pero el estado de la cuestión está empezando a cambiar. Los modelos previamente entrenados como TabPFN para datos tabulares y Chronos para series temporales están comenzando a igualar o superar los modelos potenciados por gradiente en ciertos puntos de referencia. En cierto modo, estos también son métodos de conjunto, excepto que en lugar de reunir muchas predicciones, son un conjunto de datos de los que aprenden. La intuición detrás de esto es ampliamente aplicable y puede llevarse más lejos.

Ahora existe una situación en la que dos enfoques completamente diferentes están luchando por el primer puesto en las tablas de clasificación de ML, y son seguidos de cerca por docenas de otras arquitecturas que tienen sus propios conjuntos de fortalezas y debilidades. Dado que todos aprenden de diferentes maneras y también aprenden de diferentes datos, todos pueden usarse juntos en un conjunto adicional que conserve la mayoría de las fortalezas y al mismo tiempo elimine la mayoría de las debilidades. Si se hace correctamente, esto casi siempre conduce a un mejor rendimiento y a un modelo más robusto.

Afirmaciones y suposiciones

Las mismas estrategias que se pueden utilizar para determinar qué datos son importantes para realizar una predicción determinada también se pueden utilizar para determinar qué modelos son importantes para realizar una predicción determinada. Así como una combinación de estimaciones base en modelos potenciados por gradiente es mejor que una estimación única, una combinación de modelos es mejor que uno.

Para el resto de esta discusión, existe la gran suposición de que en el proceso de modelado se utilizan todos los datos correctos. En otras palabras, toda la información relevante se conoce en el momento t (o durante la inferencia). En la ciencia de datos, esta no es una suposición trivial, y hacerlo falsamente invalidará en gran medida las afirmaciones hechas aquí. Resulta que la mayor parte del trabajo en ciencia de datos simplemente intenta satisfacer esta suposición con datos en el formato correcto. También tenga en cuenta que las covariables/características expuestas a los modelos no son fijas, ya que diferentes arquitecturas funcionan mejor con diferentes datos y es posible que no puedan manejar ciertos tipos de datos en absoluto (este será un punto particularmente relevante para abordar los híbridos de lenguaje/modelo numérico previamente entrenados, que aún se encuentran en desarrollo temprano).

Apilamiento multicapa

Un enfoque generalizado que puede modificarse para series temporales o problemas de clasificación/regresión tabular.

Capa 1

Hay muchas formas de crear métodos de conjunto y tiene más sentido organizar estos pasos en capas. La primera capa es la colección de modelos base (por ejemplo, CatBoost, MLP, TabPFN, etc.).

Para problemas tabulares, estos se pueden entrenar con agregación de arranque, donde se crean nuevos conjuntos de entrenamiento mediante muestreo del conjunto de entrenamiento base con reemplazo. Luego se entrenan modelos individuales en cada nuevo conjunto y se promedian sus predicciones. También se puede realizar una optimización de hiperparámetros para cada uno de estos modelos, aunque esto es mucho más costoso desde el punto de vista computacional ya que cada modelo para cada muestra (o “bolsa”) se vuelve a entrenar muchas veces. Para reducir el tiempo de entrenamiento, se puede usar un programador de optimización de hiperparámetros como Optuna para acortar las ejecuciones del modelo que no funcionan bien, y se puede concentrar un mínimo local más rápido mediante el uso de algunos trucos de optimización estadística. Alternativamente, se pueden usar varios ajustes preestablecidos de hiperparámetros para cada modelo en función de lo que tiende a funcionar bien para ese modelo en particular en conjuntos de datos similares. Los diferentes modelos con diferentes ajustes preestablecidos se pueden promediar juntos para “representar” un modelo, o se pueden registrar como versiones diferentes del modelo y usarse en la siguiente capa.

Para el pronóstico de series temporales, el bootstrapping tradicional se convierte en un problema. Dado que se debe respetar la dimensión temporal, un proceso no puede dividir estos datos aleatoriamente y volver a muestrearlos para crear nuevos conjuntos de entrenamiento. En cambio, la validación cruzada debe realizarse con una ventana móvil a lo largo del tiempo. Para este proceso, se crea un nuevo modelo para predecir en una ventana de validación con marcas de tiempo estrictamente posteriores a las presentes en el conjunto de entrenamiento. Después del entrenamiento y la evaluación, esa ventana de validación se agrega al conjunto de entrenamiento y el proceso se repite durante el siguiente período de tiempo (la siguiente ventana de validación). Esto da una buena idea de qué tan bien funcionará el modelo a lo largo del tiempo, pero los modelos generalmente no se ensamblan en este paso. Dado que los datos de series temporales recientes suelen ser los más informativos, para la inferencia solo se utiliza el modelo entrenado en el último paso. Sin embargo, las predicciones de ventanas anteriores aún se pueden usar en la siguiente capa.

Capa 2

Después de entrenar los modelos base, las métricas de evaluación del conjunto de entrenamiento y del conjunto de validación están disponibles. Para todos los pasos intermedios, el conjunto de prueba debe ignorarse por completo. En la capa 2, se pueden utilizar nuevas estrategias ya que se conoce el rendimiento del modelo y (con suerte) ya se han realizado predicciones sólidas.

Para problemas tabulares, se puede entrenar una segunda ronda de modelos en bolsas donde las predicciones de los modelos de capa 1 se agregan como características. En el caso de que un modelo base tenga un rendimiento deficiente en la validación, se puede eliminar de este paso.

En las series de tiempo, no se puede aplicar la misma estrategia ya que los modelos de capa 1 nunca hicieron predicciones para todo el conjunto de entrenamiento. Esto no es posible porque no habría datos con los que entrenar para obtener predicciones para el comienzo del conjunto de entrenamiento, y un modelo que ha sido entrenado en algo posterior no se puede usar para obtener las predicciones necesarias para usar como características en el modelo. Una advertencia a esto es que si la arquitectura del modelo de capa 2 puede manejar valores faltantes, o solo se usa un subconjunto del conjunto de entrenamiento que tiene predicciones, entonces se puede realizar un reentrenamiento completo (en datos de entrenamiento y predicciones del modelo de capa 1) en esta capa. Si bien esto es posible, y quizás útil, existen enfoques más elegantes.

Dado que se conoce el rendimiento del modelo y se han realizado predicciones, se puede utilizar una combinación de predicciones del modelo base como nuevos predictores. Hay varias formas de hacer esto:

Simplemente promedie todas ellas Pese cada predicción establecida por su rendimiento de validación y promedielas Tome una combinación lineal de todas las predicciones que minimice la pérdida con mínimos cuadrados ordinarios Haga un conjunto codicioso que comience con el modelo de mejor rendimiento y lentamente agregue peso a otros modelos hasta que el rendimiento deje de mejorar. Si eso no es suficiente, se puede entrenar un modelo completo exclusivamente con las predicciones de los modelos base (esto solo es realmente útil si hay una cantidad suficientemente grande de predicciones fuera de pliegue)

Tenga en cuenta que las ventanas de validación de la capa 1 se convierten en el conjunto de entrenamiento de la capa 2, por lo que solo el último conjunto de validación de la capa 1 se utiliza como conjunto de validación de la capa 2. En lugar de intentar descubrir cuál es el mejor enfoque, la capa 2 debería probarlos todos, ya que estos pasos son computacionalmente eficientes.

Capa 3

Es hora de apilar más capas… El enfoque tabular arrojó predicciones de otra ronda de modelos en bolsas, y el enfoque de series de tiempo arrojó predicciones de diferentes estrategias de ensamblaje. La Capa 3 simplemente utilizará una de las estrategias de ensamblaje mencionadas en los conjuntos de series temporales de la capa 2 para crear el metamodelo final. Este es el modelo que se debe utilizar para evaluar en el conjunto de prueba, aunque es una buena idea verificar que realmente supera a los modelos base. El modelo final casi siempre debería ganar y será menos sensible a las malas predicciones de un solo modelo, ya que las malas predicciones pueden ponderarse a la baja y tender a promediarse. Por el contrario, si un modelo detecta un patrón que los demás no detectan, la pila de múltiples capas puede aprender a amplificar esas predicciones. Los únicos casos en los que esto es ineficaz es si un modelo siempre es mejor en todos los ámbitos, lo cual es bastante raro, o si uno o más modelos base son bastante malos, en cuyo caso deberían eliminarse por completo.

¿Valió la pena?

Probablemente. La desventaja de esto es que requiere entrenar muchos modelos en lugar de uno. Si los conjuntos de datos son lo suficientemente grandes, el tiempo de entrenamiento e inferencia puede convertirse rápidamente en una limitación para determinadas aplicaciones. El contraargumento a esto es que el proceso es altamente paralelizable y, si es necesario, se pueden utilizar algoritmos eficientes en lugar del aprendizaje profundo. LightGBM es un orden de magnitud más rápido que el aprendizaje profundo y, a menudo, sigue siendo competitivo.

Esta filosofía de ensamblar conjuntos en el aprendizaje automático ha sido popularizada y adoptada plenamente por AutoGluon. De hecho, es el estándar de facto para su oferta AutoML, y su equipo ha contribuido en gran medida tanto a la comunidad de código abierto como a la investigación de vanguardia en el campo. Como la frontera previa al entrenamiento para transformadores de series temporales/tabulares aún no se ha explorado por completo, se espera que la diversidad adicional de modelos futuros fortalezca aún más esta estrategia.

Hay buenas razones para creer que esta filosofía seguirá ganando, como lo ha hecho en muchos otros ámbitos:

La democracia es un conjunto de funcionarios electos, y los funcionarios electos representan el conjunto de sus electores (al menos en teoría). Si bien no es perfecto, sigue siendo el mejor sistema hasta el momento. El diagnóstico médico mejora con múltiples opiniones. La combinación de evaluaciones de múltiples radiólogos, patólogos o especialistas reduce constantemente las tasas de diagnóstico erróneo. Cada médico puede detectar diferentes patrones o casos extremos, y su juicio combinado es más confiable que cualquier evaluación individual. Incluso los mercados de valores son un conjunto de creencias sobre el futuro. Si bien históricamente la información contenida en los movimientos de estos mercados no ha sido directamente relevante para la mayoría de las personas, los mercados de predicción y las plataformas de pronóstico están cambiando esto. En el reciente lanzamiento de Claude Code (febrero de 2026), Anthropic introdujo “equipos de agentes” colaborativos donde múltiples instancias de Claude trabajan juntas en tareas, coordinándose a través de listas de tareas compartidas y comunicación entre pares. xAI utiliza un enfoque de múltiples agentes similar con Grok 4 Heavy/Grok 4.20, donde agentes independientes trabajan en paralelo y “validan de forma cruzada” las soluciones de cada uno antes de converger en una respuesta final.

Resulta que el trabajo en equipo es el camino a seguir. Conjuntos de conjuntos de conjuntos aparecen repetidamente en los mejores sistemas que los humanos han creado, y el dominio del aprendizaje automático no es una excepción. En la era de la inteligencia, ampliar esta idea no será opcional.