Screenshot 2024 03 01 At 10.07.15 Pm.png

El desafío de adaptar los LLM de propósito general a tareas específicas sin una recapacitación extensa o datos adicionales persiste incluso después de avances significativos en el campo. La adaptación de LM para tareas especializadas a menudo requiere importantes recursos computacionales y datos de dominios específicos. Los métodos tradicionales implican ajustar todo el modelo en conjuntos de datos de tareas específicas, lo que puede ser costoso desde el punto de vista computacional y consumir muchos datos, lo que crea una barrera para aplicaciones con recursos limitados o aquellas que requieren una implementación rápida en diversas tareas.

Los enfoques actuales para la adaptación de modelos implican el muestreo de rechazo, uno de los métodos utilizados para maximizar la recompensa, pero implica altos costos de capacitación e inferencia. Otro enfoque es utilizar muestreo de rechazo con ajuste fino o destilación para reducir los costos de inferencia. El ajuste iterativo es una dirección interesante para el trabajo futuro. Las indicaciones son un método de adaptación sin entrenamiento, pero el ajuste aún supera a los métodos de indicaciones.

Investigadores de la Universidad de Harvard presentaron Q-Probe, que presenta un método novedoso para adaptar LM previamente entrenados para maximizar las recompensas específicas de tareas de manera eficiente. Emplea una función lineal simple dentro del espacio de incrustación del modelo para volver a ponderar las finalizaciones de los candidatos, con el objetivo de lograr un equilibrio entre la profundidad del ajuste y la simplicidad de las indicaciones. Este método reduce significativamente la sobrecarga computacional al tiempo que conserva la adaptabilidad del modelo a diversas tareas.

Q-Probe opera aplicando una forma de muestreo de rechazo a las salidas del LM, utilizando una sonda lineal para evaluar y priorizar las terminaciones en función de su utilidad proyectada. Para entrenar los Q-Probes se pueden utilizar modelos de recompensa u objetivos directos de aprendizaje de políticas basados ​​en gradientes de políticas ponderados por importancia. Q-Probe se puede entrenar sobre una API, ya que solo requiere acceso a muestreos e incrustaciones. En inferencia, se utiliza para generar muestras mediante muestreo de rechazo. Predice un valor para cada incrustación, determinando los logits para una distribución softmax utilizada para muestrear la finalización elegida. El procedimiento de muestreo es equivalente a una maximización restringida por KL del Q-Probe a medida que aumenta el número de muestras. Este método ha mostrado ganancias en dominios con recompensas reales y recompensas implícitas definidas por datos de preferencias, superando incluso el ajuste fino en regímenes con datos limitados.

La aplicación de Q-Probe ha demostrado resultados prometedores, especialmente en dominios como la generación de código, donde ha demostrado potencial para superar los métodos tradicionales de ajuste en precisión y eficiencia. Supera a métodos como PPO (fuera de línea) y DPO y, al mismo tiempo, se desempeña a la par de KTO cuando se evalúa según los datos de preferencia humana. El proceso logra una alta «tasa de victorias» en comparación con la finalización ganadora en los datos de cada mensaje, según lo juzgado por GPT-4. La tasa de ganancia aumenta con la cantidad de muestras generadas durante la inferencia. Cuando el modelo base se intercambia con el modelo ajustado por KTO, Q-Probe en el modelo ajustado por KTO supera a KTO solo o a Q-Probing en el modelo base. Estos resultados muestran la aplicabilidad del algoritmo de tiempo de inferencia propuesto con los métodos de ajuste existentes.

En resumen, Q-Probe representa un avance significativo en el campo de la adaptación de LM, proporcionando un medio eficiente y eficaz para adaptar modelos de propósito general a tareas específicas. Cerrar la brecha entre el ajuste exhaustivo y las indicaciones simples abre nuevas vías para aplicar LM en una gama más amplia de dominios, mejorando su utilidad y accesibilidad.


Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.