Los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han revolucionado la resolución de problemas en el aprendizaje automático, al cambiar el paradigma del entrenamiento tradicional de extremo a extremo a la utilización de modelos preentrenados con indicaciones cuidadosamente diseñadas. Esta transición presenta una dicotomía fascinante en los enfoques de optimización. Los métodos convencionales implican el entrenamiento de redes neuronales desde cero utilizando el descenso de gradiente en un espacio numérico continuo. En cambio, la técnica emergente se centra en la optimización de las indicaciones de entrada para los LLM en un espacio de lenguaje natural discreto. Este cambio plantea una pregunta convincente: ¿puede un LLM preentrenado funcionar como un sistema parametrizado por su indicación de lenguaje natural, de manera análoga a cómo las redes neuronales se parametrizan por pesos numéricos? Este nuevo enfoque desafía a los investigadores a repensar la naturaleza fundamental de la optimización y adaptación de modelos en la era de los modelos de lenguaje de gran escala.
Los investigadores han explorado diversas aplicaciones de los LLM en la planificación, la optimización y los sistemas multiagente. Los LLM se han empleado para planificar las acciones de los agentes incorporados y resolver problemas de optimización generando nuevas soluciones basadas en intentos anteriores y sus pérdidas asociadas. El lenguaje natural también se ha utilizado para mejorar el aprendizaje en diversos contextos, como proporcionar supervisión para el aprendizaje de la representación visual y crear criterios de clasificación de imágenes sin disparos.
La ingeniería y la optimización de avisos han surgido como áreas de estudio cruciales, y se han desarrollado numerosos métodos para aprovechar las capacidades de razonamiento de los LLM. Se han propuesto técnicas de optimización automática de avisos para reducir el esfuerzo manual necesario para diseñar avisos efectivos. Además, los LLM han demostrado ser prometedores en sistemas multiagente, donde pueden asumir diferentes roles para colaborar en tareas complejas.
Sin embargo, estos enfoques existentes a menudo se centran en aplicaciones específicas o técnicas de optimización sin explorar por completo el potencial de los LLM como aproximadores de funciones parametrizados por indicaciones de lenguaje natural. Esta limitación ha dejado espacio para nuevos marcos que pueden cerrar la brecha entre los paradigmas tradicionales de aprendizaje automático y las capacidades únicas de los LLM.
Investigadores del Instituto Max Planck de Sistemas Inteligentes, la Universidad de Tübingen y la Universidad de Cambridge presentaron el Aprendizaje automático verbal (VML) El marco VML es un enfoque único del aprendizaje automático que considera a los LLM como aproximadores de funciones parametrizados por sus indicaciones de texto. Esta perspectiva traza un paralelo interesante entre los LLM y las computadoras de propósito general, donde la funcionalidad está definida por el programa en ejecución o, en este caso, la indicación de texto. El marco VML ofrece varias ventajas sobre los enfoques tradicionales de aprendizaje automático numérico.
Una característica clave de VML es su gran capacidad de interpretación. Al utilizar indicaciones de texto totalmente legibles para caracterizar las funciones, el marco permite una fácil comprensión y seguimiento del comportamiento del modelo y de los posibles fallos. Esta transparencia supone una mejora significativa con respecto a la naturaleza a menudo opaca de las redes neuronales tradicionales.
VML también presenta una representación unificada de los datos y los parámetros del modelo en un formato basado en tokens. Esto contrasta con el aprendizaje automático numérico, que normalmente trata los datos y los parámetros del modelo como entidades distintas. El enfoque unificado de VML simplifica potencialmente el proceso de aprendizaje y proporciona un marco más coherente para gestionar diversas tareas de aprendizaje automático.
Los resultados del marco VML demuestran su eficacia en diversas tareas de aprendizaje automático, incluidas la regresión, la clasificación y el análisis de imágenes. A continuación, se incluye un resumen de los hallazgos clave:
VML muestra un rendimiento prometedor tanto en tareas simples como complejas. En el caso de la regresión lineal, el marco aprende con precisión la función subyacente, lo que demuestra su capacidad para aproximar relaciones matemáticas. En escenarios más complejos, como la regresión sinusoidal, VML supera a las redes neuronales tradicionales, especialmente en tareas de extrapolación, cuando se le proporciona la información previa adecuada.
En las tareas de clasificación, VML muestra adaptabilidad e interpretabilidad. Para datos linealmente separables (clasificación de dos blobs), el marco aprende rápidamente un límite de decisión eficaz. En casos no lineales (clasificación de dos círculos), VML incorpora con éxito el conocimiento previo para lograr resultados precisos. La capacidad del marco para explicar su proceso de toma de decisiones a través de descripciones en lenguaje natural proporciona información valiosa sobre su progresión de aprendizaje.
El rendimiento de VML en la clasificación de imágenes médicas (detección de neumonía a partir de rayos X) destaca su potencial en aplicaciones del mundo real. El marco muestra mejoras con respecto a épocas de entrenamiento y se beneficia de la inclusión de conocimiento previo específico del dominio. En particular, la naturaleza interpretable de VML permite a los profesionales médicos validar modelos aprendidos, una característica crucial en dominios sensibles.
En comparación con los métodos de optimización rápida, VML demuestra una capacidad superior para obtener información detallada basada en datos. Si bien la optimización rápida suele generar descripciones generales, VML captura patrones y reglas matizados a partir de los datos, lo que mejora sus capacidades predictivas.
Sin embargo, los resultados también revelan algunas limitaciones. VML muestra una varianza relativamente grande en el entrenamiento, en parte debido a la naturaleza estocástica de la inferencia del modelo de lenguaje. Además, los problemas de precisión numérica en los modelos de lenguaje pueden conducir a errores de ajuste, incluso cuando las expresiones simbólicas subyacentes se entienden correctamente.
A pesar de estos desafíos, los resultados generales indican que VML es un enfoque prometedor para realizar tareas de aprendizaje automático, ofreciendo interpretabilidad, flexibilidad y la capacidad de incorporar el conocimiento del dominio de manera efectiva.
Este estudio presenta la VML El marco VML demuestra su eficacia en tareas de regresión y clasificación y valida los modelos de lenguaje como aproximadores de funciones. VML se destaca en la regresión lineal y no lineal, se adapta a diversos problemas de clasificación y es prometedor en el análisis de imágenes médicas. Supera la optimización de indicaciones tradicional en el aprendizaje de información detallada. Sin embargo, las limitaciones incluyen una alta varianza de entrenamiento debido a la estocasticidad de LLM, errores de precisión numérica que afectan la precisión del ajuste y restricciones de escalabilidad debido a las limitaciones de la ventana de contexto de LLM. Estos desafíos presentan oportunidades para futuras mejoras para mejorar el potencial de VML como un enfoque de aprendizaje automático interpretable y poderoso.
Revisar la PapelTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit
Encuentra lo próximo Seminarios web sobre IA aquí
Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.