Investigadores de AI2 y la Universidad de Washington descubren la naturaleza superficial de la alineación en los LLM e introducen URIAL: un nuevo método sin ajustes

Los modelos de lenguaje grande (LLM) son innovaciones recientes en el campo de la inteligencia artificial (IA) y el aprendizaje profundo. Algunos de los LLM más conocidos, como GPT, PaLM, LLaMa, etc., han demostrado un potencial increíble en la generación de contenido. Desde la respuesta a preguntas y el resumen de texto hasta la traducción de idiomas y la finalización de código, estos modelos pueden hacer mucho. Estos modelos, incluido ChatGPT, han pasado por un extenso entrenamiento previo en vastos corpus de texto no supervisados. Sin embargo, estudios recientes han sugerido que la práctica comúnmente adoptada de ajuste fino puede no ser tan esencial como se pensaba anteriormente.

El ajuste de alineación, que es el proceso de mejorar los LLM básicos para su uso como asistentes de IA de dominio abierto, ha sido aceptado como estándar de la industria. Esto incluye el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) y el ajuste fino supervisado (SFT). Este estándar fue cuestionado por un estudio llamado LIMA, que demostró que tan solo 1000 muestras para SFT pueden ser suficientes para lograr un rendimiento de alineación significativo.

La hipótesis de la alineación superficial, presentada por LIMA, propuso que el ajuste de la alineación, en lugar de cambiar radicalmente el comportamiento básico de los LLM, puede entrenarlos para elegir formatos de datos particulares para la participación del usuario. Esto demostró que unos pocos ejemplos pueden producir modelos alineados de alta calidad bajo ajuste supervisado.

Dado que no se han realizado suficientes investigaciones para encontrar un apoyo sólido para la teoría de la alineación superficial, un equipo de investigadores del Instituto Allen de Inteligencia Artificial y la Universidad de Washington ha abordado la técnica ampliamente utilizada de ajuste de alineación en un artículo reciente para realizar LLM básicos. en útiles asistentes de IA para el dominio abierto. El ajuste de preferencias se ha logrado mediante el aprendizaje reforzado a partir de la retroalimentación humana, y el aprendizaje de la instrucción se ha logrado mediante un ajuste fino supervisado.

El equipo examinó el cambio en la distribución de tokens entre los LLM básicos y sus contrapartes alineados, como Llama-2 y Llama-2-chat, para estudiar el impacto del ajuste de alineación. Han descubierto que los LLM básicos y sus versiones alineadas comparten los tokens mejor clasificados y funcionan de manera casi idéntica en la decodificación en la mayoría de las posiciones de los tokens. Los marcadores de discurso y las exenciones de responsabilidad de seguridad son ejemplos de tokens de estilo que experimentan la mayor cantidad de fluctuaciones en la distribución. Este estudio ha proporcionado evidencia convincente para la hipótesis de que el ajuste de alineación se concentra principalmente en asimilar el estilo lingüístico de los asistentes de IA, y los LLM básicos proporcionan la información necesaria para responder a las consultas de los usuarios.

El equipo también presentó un tema de investigación en respuesta a estos hallazgos: ¿hasta qué punto se pueden alinear los LLM básicos sin SFT o RLHF? Han sugerido URIAL (LLM sin sintonizar con alineación en contexto rediseñada), una técnica de alineación que no requiere sintonización. Con solo tres ejemplos de estilo continuos y un mensaje del sistema, URIAL logra una alineación efectiva únicamente a través del aprendizaje en contexto (ICL) con los LLM básicos.

En una serie de instancias denominadas just-eval-instruct, el equipo ha proporcionado un análisis detallado y comprensible que muestra cómo los LLM básicos con URIAL pueden funcionar a la par o mejor que los LLM alineados con SFT (Mistral-7b-Instruct) o SFT+. RLHF (Llama-2-70b-chat). Los resultados han demostrado que la estimulación deliberada y el aprendizaje en contexto pueden cerrar drásticamente la brecha entre las estrategias de alineación sin sintonización y las basadas en sintonización.

En conclusión, los resultados de la evaluación han puesto de relieve un ajuste de alineación superficial y han demostrado que implica principalmente la adopción de estilos lingüísticos y depende del conocimiento preexistente de los LLM básicos.

Revisar la Papel y Proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🐝 [FREE AI WEBINAR] ‘Guía para principiantes de LangChain: chatee con sus datos multimodelo’ 11 de diciembre de 2023 10 a. m. PST

Investigadores de AI2 y la Universidad de Washington descubren la naturaleza superficial de la alineación en los LLM e introducen URIAL: un nuevo método sin ajustes

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA AI presenta SpatialClaw: un agente sin capacitación que trata el código como la interfaz de acción para el razonamiento espacial

Una mejor manera de modelar el comportamiento de las aleaciones metálicas | Noticias del MIT

Intenté programar mi canalización ETL. Esto es lo que no esperaba.

You missed

El pequeño asteroide Donaldjohanson cae porque la luz del sol lo ralentizó

La ‘herencia Trias’ y la ‘generación Puigdemont’ se baten en las primarias de Junts para elegir candidato en Barcelona

Balan: The Boy Review: Chidambaram encuentra la belleza en la incertidumbre

Un experto en tratamiento de agua explica lo que realmente podría arreglar la piscina reflectante