El aprendizaje automático para el modelado predictivo tiene como objetivo pronosticar con precisión los resultados basándose en los datos de entrada. Uno de los principales desafíos en este campo es la «adaptación del dominio», que aborda las diferencias entre los escenarios de capacitación y aplicación, especialmente cuando los modelos enfrentan condiciones nuevas y variadas después del entrenamiento. Este desafío es importante para los conjuntos de datos tabulares de finanzas, atención médica y ciencias sociales, donde las condiciones subyacentes de los datos a menudo cambian. Estos cambios pueden reducir drásticamente la precisión de las predicciones, ya que la mayoría de los modelos se entrenan inicialmente bajo supuestos específicos que no se generalizan bien cuando cambian las condiciones. Comprender y abordar estos cambios es esencial para construir modelos adaptables y robustos para aplicaciones del mundo real.

Un problema importante en el modelado predictivo es el cambio en la relación entre las características (X) y los resultados objetivo (Y), comúnmente conocido como cambios Y|X. Estos cambios pueden deberse a información faltante o a variables de confusión que varían según los diferentes escenarios o poblaciones. Los cambios Y|X son particularmente desafiantes en datos tabulares, donde la ausencia o alteración de variables clave puede distorsionar los patrones aprendidos, lo que lleva a predicciones incorrectas. Los modelos actuales luchan en tales situaciones, ya que su dependencia de relaciones fijas entre características y objetivos limita su adaptabilidad a nuevas condiciones de datos. Por lo tanto, desarrollar métodos que permitan a los modelos aprender solo de unos pocos ejemplos etiquetados en el nuevo contexto sin un reentrenamiento extenso es crucial para la implementación práctica.

Los métodos tradicionales, como los árboles que aumentan el gradiente y las redes neuronales, se han utilizado ampliamente para el modelado de datos tabulares. Si bien son efectivos, estos modelos deben revisarse cuando se aplican a datos que difieren significativamente de los escenarios de capacitación. La reciente aplicación de modelos de lenguaje grande (LLM) representa un enfoque emergente para este problema. Los LLM pueden codificar una gran cantidad de conocimiento contextual en características, lo que, según la hipótesis de los investigadores, podría ayudar a que los modelos funcionen mejor cuando la distribución de datos de entrenamiento y objetivo no se alinean. Esta novedosa estrategia de adaptación tiene potencial, especialmente en los casos en los que los modelos tradicionales luchan con la variabilidad entre dominios.

Investigadores de la Universidad de Columbia y la Universidad de Tsinghua han desarrollado una técnica innovadora que aprovecha las incorporaciones de LLM para abordar el desafío de la adaptación. Su método implica transformar datos tabulares en formato de texto serializado, que luego es procesado por un codificador LLM avanzado llamado e5-Mistral-7B-Instruct. Estos textos serializados se convierten en incrustaciones o representaciones numéricas, que capturan información significativa sobre los datos. Luego, las incorporaciones se introducen en una red neuronal poco profunda entrenada en el dominio original y ajustada en una pequeña muestra de datos objetivo etiquetados. Al hacerlo, el modelo puede aprender patrones más generalizables a nuevas distribuciones de datos, lo que lo hace más resistente a los cambios en el entorno de datos.

Este método emplea un codificador e5-Mistral-7B-Instruct para transformar datos tabulares en incrustaciones, que luego son procesadas por una red neuronal poco profunda. La técnica permite integrar información adicional específica de un dominio, como datos socioeconómicos, que los investigadores concatenan con las incorporaciones serializadas para enriquecer las representaciones de los datos. Este enfoque combinado proporciona un conjunto de características más rico, lo que permite que el modelo capture mejor los cambios variables entre dominios. Al ajustar esta red neuronal con solo un número limitado de ejemplos etiquetados del dominio objetivo, el modelo se adapta de manera más efectiva que los enfoques tradicionales, incluso bajo cambios Y|X significativos.

Los investigadores probaron su método en tres conjuntos de datos del mundo real:

  1. Ingresos ACS
  2. Movilidad ACS
  3. ACS Pub.Cov

Sus evaluaciones abarcaron 7.650 combinaciones únicas de pares fuente-destino en todos los conjuntos de datos, utilizando 261.000 configuraciones de modelos con 22 algoritmos diferentes. Los resultados revelaron que las incorporaciones de LLM por sí solas mejoraron el rendimiento en el 85 % de los casos en el conjunto de datos de ACS Income y en el 78 % en el conjunto de datos de ACS Mobility. Sin embargo, para el conjunto de datos ACS Pub.Cov, la métrica FractionBest cayó al 45 %, lo que indica que las incorporaciones de LLM no superaron consistentemente a los métodos de conjunto de árboles en todos los conjuntos de datos. Sin embargo, cuando se ajustó con solo 32 muestras objetivo etiquetadas, el rendimiento aumentó significativamente, alcanzando el 86 % en ACS Income and Mobility y el 56 % en ACS Pub.Cov, lo que subraya la flexibilidad del método bajo diversas condiciones de datos.

Los hallazgos del estudio sugieren aplicaciones prometedoras para las incorporaciones de LLM en la predicción de datos tabulares. Las conclusiones clave incluyen:

  • Modelado adaptativo: Las incorporaciones de LLM mejoran la adaptabilidad, lo que permite que los modelos manejen mejor los cambios Y|X incorporando información específica del dominio en las representaciones de características.
  • Eficiencia de datos: El ajuste con un conjunto mínimo de muestras objetivo (tan solo 32 ejemplos) mejoró el rendimiento, lo que indica eficiencia de recursos.
  • Amplia aplicabilidad: El método se adaptó eficazmente a diferentes cambios de datos en tres conjuntos de datos y 7650 casos de prueba.
  • Limitaciones e investigaciones futuras: Aunque las incorporaciones de LLM mostraron mejoras sustanciales, no superaron consistentemente a los métodos de conjuntos de árboles, particularmente en el conjunto de datos ACS Pub.Cov. Esto destaca la necesidad de realizar más investigaciones sobre métodos de ajuste e información de dominio adicional.

En conclusión, esta investigación demuestra que el uso de incorporaciones de LLM para la predicción de datos tabulares representa un importante paso adelante en la adaptación de modelos a los cambios de distribución. Al transformar datos tabulares en incorporaciones robustas y ricas en información y al ajustar modelos con datos objetivo limitados, el enfoque supera las limitaciones tradicionales, permitiendo que los modelos funcionen de manera efectiva en diversos entornos de datos. Esta estrategia abre nuevas vías para aprovechar las incorporaciones de LLM para lograr modelos predictivos más resistentes y adaptables a aplicaciones del mundo real con un mínimo de datos etiquetados.


Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.