Los investigadores de Google Deepmind desbloquean el potencial de la regresión basada en la decodificación para las tareas de estimación tabular y de densidad

Las tareas de regresión, que implican predecir valores numéricos continuos, se han basado tradicionalmente en cabezas numéricas como las parametrizaciones gaussianas o las proyecciones tensoras puntuales. Estos enfoques tradicionales tienen fuertes requisitos de suposición de distribución, requieren muchos datos etiquetados y tienden a descomponerse al modelar distribuciones numéricas avanzadas. Una nueva investigación sobre modelos de idiomas grandes introduce un enfoque diferente: representar los valores numéricos como secuencias de tokens discretos y usar decodificación autoregresiva para la predicción. Sin embargo, este cambio viene con varios desafíos serios, incluida la necesidad de un mecanismo de tokenización eficiente, el potencial de pérdida de precisión numérica, la necesidad de mantener un entrenamiento estable y la necesidad de superar la falta de sesgo inductivo de formas de token secuencial para numéricos valores. Superar estos desafíos conduciría a un marco de regresión aún más potente, eficiente de datos y flexible, extendiendo así la aplicación de modelos de aprendizaje profundo más allá de los enfoques tradicionales.

Los modelos de regresión tradicionales se basan en proyecciones de tensor numérico o cabezas de distribución paramétrica, como los modelos gaussianos. Si bien estos enfoques convencionales están muy extendidos, también tienen varios inconvenientes. Los modelos con sede en Gaussian tienen el inconveniente de asumir salidas normalmente distribuidas, restringiendo la capacidad de modelar distribuciones multimodales más avanzadas. Los cabezas de regresión puntual luchan con relaciones altamente no lineales o discontinuas, lo que restringe su capacidad de generalizar en varios conjuntos de datos. Los modelos de alta dimensión, como las distribuciones de Riemann basadas en histogramas, son computacionales y intensivas en datos y, por lo tanto, ineficientes. Además, muchos enfoques tradicionales requieren una normalización o escala explícita de la producción, introduciendo una capa adicional de complejidad e inestabilidad potencial. Si bien el trabajo convencional ha tratado de emplear una regresión de texto a texto utilizando modelos de lenguaje grandes, se ha realizado poco trabajo sistemático en la regresión de “cualquier cosa hasta el texto”, donde las salidas numéricas se representan como secuencias de tokens, introduciendo así un nuevo paradigma para Predicción numérica.

Investigadores de Google Deepmind proponen una formulación de regresión alternativa, reformulando la predicción numérica como un problema de generación de secuencia autoregresiva. En lugar de generar valores escalar directamente, este método codifica números como secuencias de token y emplea una decodificación restringida para generar salidas numéricas válidas. La codificación de valores numéricos como secuencias de token discretas hace que este método sea más flexible y expresivo al modelar datos de valor real. A diferencia de los enfoques basados ​​en gaussianos, este método no implica supuestos de distribución sólidos sobre los datos, lo que lo hace más generalizable para las tareas del mundo real con patrones heterogéneos. El modelo acomoda el modelado preciso de distribuciones multimodales y complejas, mejorando así su rendimiento en la estimación de densidad, así como las tareas de regresión puntual. Al aprovechar las ventajas de los decodificadores autorregresivos, aprovecha el progreso reciente del modelado de idiomas y al mismo tiempo conserva el rendimiento competitivo en relación con las cabezas numéricas estándar. Esta formulación presenta un marco robusto y flexible que puede modelar una amplia gama de relaciones numéricas con precisión, ofreciendo un sustituto práctico de los métodos de regresión estándar que generalmente se consideran inflexibles.

El enfoque emplea dos métodos de tokenización para la representación numérica: tokenización normalizada y tokenización no anormalizada. La tokenización normalizada codifica números en un rango fijo con expansión Base-B para proporcionar una precisión más fina con una longitud de secuencia creciente. La tokenización no anormalizada extiende la misma idea a rangos numéricos más amplios con una representación de punto flotante generalizada como IEEE-754 sin la necesidad de una normalización explícita. Un modelo de transformador auto-regresivo genera salidas numéricas token por token sujeto a restricciones para proporcionar secuencias numéricas válidas. El modelo está entrenado utilizando pérdida de entropía cruzada sobre la secuencia de token para proporcionar una representación numérica precisa. En lugar de predecir una salida escalar directamente, el sistema muestra secuencias de token y emplea técnicas de estimación estadística, como la media o el cálculo mediano, para la predicción final. Las evaluaciones se realizan en conjuntos de datos de regresión tabular del mundo real de los puntos de referencia OpenML-CTR23 y AMLB y se comparan con los modelos de mezcla gaussianas, la regresión basada en histogramas y los cabezales de regresión puntual estándar. La sintonización de hiperparameter se realiza en varios ajustes de decodificadores, como variaciones en el número de capas, unidades ocultas y vocabularios de tokens, para proporcionar un rendimiento optimizado.

Los experimentos muestran que el modelo captura con éxito relaciones numéricas intrincadas, logrando un fuerte rendimiento en una variedad de tareas de regresión. Atiende los altos puntajes de correlación de Kendall-Tau en la regresión tabular, a menudo superando los modelos de referencia, especialmente en entornos bajos en los datos donde la estabilidad numérica es esencial. El método también es mejor en la estimación de densidad, capturando con éxito distribuciones complejas y superan los modelos de mezcla gaussianas y los enfoques basados ​​en Riemann en pruebas negativas de probabilidad logarítmica. El ajuste del tamaño del modelo al comienzo mejora el rendimiento, con una sobrecapacidad que causa el sobreajuste. La estabilidad numérica mejora enormemente mediante métodos de corrección de errores como la repetición de tokens y la votación mayoritaria, minimizando la vulnerabilidad a los valores atípicos. Estos resultados hacen de este marco de regresión una alternativa robusta y adaptativa a los métodos tradicionales, que muestra su capacidad para generalizar con éxito en varios conjuntos de datos y tareas de modelado.

Este trabajo introduce un enfoque novedoso para la predicción numérica al aprovechar las representaciones tokenizadas y la decodificación automática. Al sustituir los cabezales de regresión numérica tradicionales con salidas basadas en token, el marco mejora la flexibilidad en el modelado de datos de valor real. Atenta un rendimiento competitivo en diversas tareas de regresión, especialmente en la estimación de densidad y el modelado tabular, al tiempo que proporciona garantías teóricas para aproximar las distribuciones de probabilidad arbitraria. Superenta a los métodos de regresión tradicionales en contextos importantes, especialmente en el modelado de distribuciones complejas y datos de capacitación escasos. El trabajo futuro implica mejorar los métodos de tokenización para una mejor precisión y estabilidad numérica, extender el marco a la regresión múltiple y las tareas de predicción de alta dimensión e investigar sus aplicaciones en el modelado de recompensas de aprendizaje de refuerzo y la estimación numérica basada en la visión. Estos resultados hacen que la regresión numérica basada en la secuencia sea una alternativa prometedora a los métodos tradicionales, ampliando el alcance de las tareas que los modelos de lenguaje pueden resolver con éxito.


Verificar el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 MarktechPost está invitando a las compañías/empresas/grupos de inteligencia artificial a asociarse para sus próximas revistas de IA en ‘Open Source AI en producción’ y ‘AI de agente’.


Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.