RLHF: Aprendizaje reforzado a partir de la retroalimentación humana |  por la Sra. Aerin |  octubre de 2023

Como todos los demás, esta es la primera vez que experimento una investigación cerrada. Desde que estaba en la universidad, hasta hace poco toda la investigación de vanguardia ha sido abierta y revisada por pares. Y creo que, en última instancia, la apertura hace avanzar la ciencia más que el cierre.

Si nuestro objetivo es igualar el rendimiento de ChatGPT a través del código abierto, creo que debemos empezar a tomarnos los datos de entrenamiento más en serio. Es posible que una parte sustancial de la efectividad de ChatGPT no provenga de, por ejemplo, una arquitectura de aprendizaje automático específica, técnicas de ajuste o marcos de trabajo. Pero lo más probable es que se deba a la amplitud, escala y calidad de los datos de instrucción.

Para decirlo sin rodeos, ajustar modelos de lenguaje grandes con datos de instrucción mediocres es un desperdicio de computación. Echemos un vistazo a lo que ha cambiado en los datos de entrenamiento y el paradigma de aprendizaje: cómo ahora formateamos los datos de entrenamiento de manera diferente y, por lo tanto, aprendemos de manera diferente que en el pasado pre-entrenamiento a gran escala.

RLHF significa Aprendizaje por refuerzo a partir de la retroalimentación humana. Tiene dos componentes principales:

  1. Aprendizaje por refuerzo (RL)
  2. Retroalimentación humana (HF)