Screenshot 2024 01 21 At 9.39.49 Am.png

Las capacidades inherentes de los modelos de lenguaje grandes previamente entrenados son notables, pero lograr los comportamientos deseados a menudo requiere una adaptación adicional. Cuando se trata de modelos cuyos pesos se mantienen en privado, el desafío se intensifica, haciendo que el ajuste sea excesivamente costoso o absolutamente imposible. Como resultado, lograr el equilibrio adecuado entre personalización y eficiencia de recursos sigue siendo una preocupación persistente a la hora de optimizar el rendimiento de estos modelos de lenguaje avanzados.

A pesar de la creciente versatilidad de los grandes modelos de lenguaje previamente entrenados, se benefician predominantemente de ajustes adicionales para mejorar comportamientos específicos. El ajuste se ha vuelto más intensivo en recursos, lo que plantea desafíos, especialmente cuando se trata de pesos de modelos privados, como GPT-4 de OpenAI en 2023. En consecuencia, personalizar de manera eficiente modelos de lenguaje cada vez más amplios para diversas necesidades de usuarios y aplicaciones sigue siendo un desafío importante.

Los investigadores de la Universidad de Washington y el Instituto Allen de IA presentan ajuste de proxy, un algoritmo de tiempo de decodificación diseñado para ajustar grandes modelos de lenguaje de caja negra (LM) sin acceder a sus pesos internos. Este método aprovecha un LM sintonizado más pequeño y calcula la diferencia entre sus predicciones y la versión no sintonizada. Utilizando expertos en tiempo de decodificación, las predicciones originales del modelo base más grande se ajustan en función de esta diferencia, logrando efectivamente los beneficios del ajuste directo.

El ajuste de proxy tiene como objetivo cerrar la disparidad entre un modelo de lenguaje base y su versión directamente ajustada sin alterar los parámetros del modelo base. Este enfoque incluye ajustar un LM más pequeño y utilizar el contraste entre sus predicciones y la versión no ajustada para ajustar las predicciones originales del modelo base hacia la dirección de ajuste. Es importante destacar que el ajuste de proxy preserva las ventajas de un entrenamiento previo extenso y, al mismo tiempo, logra de manera efectiva los comportamientos deseados en el modelo de lenguaje.

Los modelos base necesitan ayuda con las preguntas de AlpacaFarm y GSM, logrando bajas tasas de ganancia y precisión. El ajuste de proxy mejora significativamente el rendimiento, alcanzando el 88,0 % en AlpacaFarm y el 32,0 % en GSM para 70B-BASE. En Toxigen, el ajuste proxy reduce la toxicidad al 0%. La configuración abierta de TruthfulQA hace que el ajuste de proxy supere a los modelos CHAT en veracidad. En diferentes escenarios, el ajuste proxy cierra el 91,1% de la brecha de rendimiento en la escala 13B y el 88,1% en la escala 70B, lo que demuestra su eficacia para mejorar el comportamiento del modelo sin un ajuste fino directo.

En resumen, los investigadores de la Universidad de Washington y el Instituto Allen de IA han propuesto Ajuste de proxy, lo que surge como un enfoque prometedor para ajustar modelos de lenguaje grandes en el momento de la decodificación mediante la modificación de los logits de salida. Es una alternativa eficaz al ajuste tradicional, que hace que los modelos de lenguaje grandes sean más accesibles, especialmente para aquellos con recursos limitados. El método también aborda el desafío de adaptar modelos propietarios a diversos casos de uso. La conclusión invita a las organizaciones productoras de modelos a compartir probabilidades de producción para una utilización más amplia.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.