RLHF: Aprendizaje reforzado a partir de la retroalimentación humana | por la Sra. Aerin

RLHF: Aprendizaje reforzado a partir de la retroalimentación humana | por la Sra. Aerin | octubre de 2023

Como todos los demás, esta es la primera vez que experimento una investigación cerrada. Desde que estaba en la universidad, hasta hace poco toda la investigación de vanguardia ha sido abierta y revisada por pares. Y creo que, en última instancia, la apertura hace avanzar la ciencia más que el cierre.

Si nuestro objetivo es igualar el rendimiento de ChatGPT a través del código abierto, creo que debemos empezar a tomarnos los datos de entrenamiento más en serio. Es posible que una parte sustancial de la efectividad de ChatGPT no provenga de, por ejemplo, una arquitectura de aprendizaje automático específica, técnicas de ajuste o marcos de trabajo. Pero lo más probable es que se deba a la amplitud, escala y calidad de los datos de instrucción.

Para decirlo sin rodeos, ajustar modelos de lenguaje grandes con datos de instrucción mediocres es un desperdicio de computación. Echemos un vistazo a lo que ha cambiado en los datos de entrenamiento y el paradigma de aprendizaje: cómo ahora formateamos los datos de entrenamiento de manera diferente y, por lo tanto, aprendemos de manera diferente que en el pasado pre-entrenamiento a gran escala.

RLHF significa Aprendizaje por refuerzo a partir de la retroalimentación humana. Tiene dos componentes principales:

Aprendizaje por refuerzo (RL)
Retroalimentación humana (HF)

RLHF: Aprendizaje reforzado a partir de la retroalimentación humana | por la Sra. Aerin | octubre de 2023

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Conozca Flash-KMeans: un K-Means exacto y compatible con IO que se ejecuta más de 200 veces más rápido que FAISS en GPU

Z.ai lanza GLM-5.2 con un contexto de 1 millón de tokens utilizables, dos niveles de esfuerzo de pensamiento y sin puntos de referencia en el lanzamiento

Una práctica de codificación en FineWeb para transmisión, filtrado, deduplicación, tokenización y análisis de corpus web a gran escala

You missed

Trump e Irán anuncian un acuerdo preliminar de alto el fuego que se firmará el viernes

Empresas advertidas sobre piratas informáticos de células durmientes en redes empresariales

Love to Sing Choir regresa para un concierto benéfico en Estepona « Euro Weekly News

Nicki Minaj comparte un saludo por el 80 cumpleaños del presidente Trump