Una nueva investigación de IA presenta LoRAMoE: una versión complementaria de una combinación de expertos (Moe) para mantener el conocimiento mundial en la alineación del modelo lingüístico

Los modelos de lenguajes grandes (LLM) han demostrado ser notablemente eficaces en numerosos trabajos. Para aprovechar plenamente el potencial de los modelos, es necesario un ajuste fino supervisado (SFT) para que coincidan con las instrucciones humanas. Una opción sencilla cuando aumenta la variedad de tareas o cuando se necesita mejorar el rendimiento en una actividad particular es aumentar la cantidad de datos, incluso si algunos trabajos han demostrado que los modelos pueden seguir las instrucciones humanas con éxito con un pequeño ajuste de los datos.

Varios estudios muestran que el crecimiento significativo del ajuste de datos presenta nuevas dificultades. En particular, los investigadores han descubierto que el rendimiento disminuye significativamente con aumentos significativos en el ajuste de los datos en el conjunto de datos de Preguntas Naturales del conjunto de datos de Respuesta a Preguntas de Libro Cerrado (CBQA). El colapso del conocimiento mundial previamente aprendido y almacenado en los modelos previamente entrenados podría estar relacionado con esta notable pérdida de rendimiento. Hay dos fases involucradas en la prueba de esta proposición. En primer lugar, el conjunto de datos CBQA extrae conclusiones de la información mundial contenida en los modelos. En segundo lugar, un ajuste a gran escala puede alterar significativamente los parámetros del modelo, borrando información mundial (es decir, olvido de conocimientos), lo que es responsable de la notable disminución del rendimiento en el conjunto de datos CBQA. Existe un conflicto en el ajuste fino supervisado por Vanilla entre preservar la información mundial de LLM y mejorar el rendimiento en tareas posteriores al mismo tiempo.

El mejor curso de acción es designar un área determinada del modelo para almacenar información global, muy parecida al hipocampo del cerebro humano, que está especializado en recordar. Sin embargo, la forma directa y de ajuste con un solo complemento es comparable. Una arquitectura conocida como “Mezcla de expertos” (MoE) incluye varios expertos y los datos con diferentes propiedades se envían a los expertos adecuados para su procesamiento personalizado. Utilizando este concepto, un grupo de investigadores de la Universidad de Fudan y Hikvision Inc. pretenden ofrecer numerosos complementos como expertos, permitiendo a una parte acceder a la copia de seguridad y a otra realizar operaciones posteriores.

Su nuevo estudio presenta LoRAMoE, que puede mejorar las capacidades de resolución de tareas posteriores de los LLM y mitigar el olvido del conocimiento mundial. Una versión complementaria de MoE se llama LoRAMoE. Introducir numerosos complementos paralelos que son especialistas en cada capa de retroalimentación y acoplarlos a enrutadores modifica la arquitectura del modelo. A continuación, sugieren crear grupos separados de expertos para cada capa LoRAMoE utilizando restricciones de equilibrio localizadas. Para ser más precisos, un grupo trabaja en tareas posteriores y el otro tiene la tarea de reducir el olvido de conocimientos alineando las instrucciones humanas con la información mundial incluida en el modelo principal. Además, la restricción de equilibrio localizado prohíbe a los enrutadores darle demasiada importancia a sólo unos pocos expertos dentro del mismo grupo de expertos al equilibrar la relevancia de todos los expertos dentro del mismo grupo de expertos. Permite que varios profesionales trabajen juntos, mejorando la capacidad de completar trabajos más adelante.

Los resultados del experimento demuestran que LoRAMoE puede evitar con éxito que un ajuste fino a gran escala altere la información mundial incluida en los modelos de lenguaje. Además, al visualizar el peso de los expertos para las tareas, el equipo validó la eficacia de LoRAMoE en la localización de capacidades a un nivel interpretable. Los hallazgos indican que el enrutador prioriza la producción de expertos que se especializan en completar puntos de referencia de conocimiento mundial. Por otro lado, el enrutador se concentra en especialistas de otro grupo para otras tareas posteriores. LoRAMoE resuelve con éxito la disputa fomentando la cooperación de expertos. Además, los resultados del experimento indican que la estrategia propuesta mejora el aprendizaje en varias tareas posteriores, lo que sugiere el potencial del método para el aprendizaje multitarea.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarriba, Gorjeoy Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Dhanshree

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2022/11/20221028_101632-Dhanshree-Shenwai-169x300.jpg" data-large-file="https://www.marktechpost.com/wp-content/uploads/2022/11/20221028_101632-Dhanshree-Shenwai-576x1024.jpg"/>

Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.

🎯 Conozca Meetgeek: su asistente personal de reuniones con IA… ¡Pruébelo ahora!

Una nueva investigación de IA presenta LoRAMoE: una versión complementaria de una combinación de expertos (Moe) para mantener el conocimiento mundial en la alineación del modelo lingüístico

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Construí mi primer canal ETL como un completo principiante. He aquí cómo.

WorkOS lanza auth.md: un protocolo de registro de agente abierto basado en estándares OAuth

StepFun lanza StepAudio 2.5 Realtime: un modelo de voz de extremo a extremo con RLHF específico para juegos de rol y comprensión paralingüística

You missed

Los expertos explican cómo funciona realmente el protector solar y por qué pronto habrá mejores

Los beneficios de que España elimine a Gibraltar de su lista de ‘paraísos fiscales’

Elenco, fecha de lanzamiento proyectada y más actualizaciones – Hollywood Life

Construí mi primer canal ETL como un completo principiante. He aquí cómo.