Screenshot 2024 03 30 At 1.21.52 Pm.png

En el panorama en constante evolución de la inteligencia artificial, la búsqueda de modelos de lenguaje más avanzados y capaces ha sido una fuerza impulsora. Investigadores del Laboratorio de IA de Shanghai, el Grupo SenseTime, la Universidad China de Hong Kong y la Universidad de Fudan han presentado PasanteLM2un logro notable de código abierto en modelos de lenguajes grandes (LLM).

Comencemos abordando el problema que nos ocupa. A medida que crece la demanda de sistemas inteligentes que puedan comprender y generar un lenguaje similar al humano, el desarrollo de LLM se ha convertido en una tarea crucial. Estos modelos tienen como objetivo procesar e interpretar grandes cantidades de datos, lo que les permite entablar conversaciones naturales, proporcionar análisis profundos e incluso abordar tareas complejas.

Los investigadores detrás de InternLM2 han adoptado un enfoque multifacético para abordar este desafío. En el centro de su trabajo se encuentra un método innovador para construir modelos de codificador-decodificador con módulos decodificadores reutilizables. Estos módulos se pueden aplicar sin problemas en diversas tareas de generación de secuencias, desde traducción automática y reconocimiento automático de voz hasta reconocimiento óptico de caracteres.

InternLM2 emplea un marco de entrenamiento sofisticado llamado InternEvo, que permite un entrenamiento de modelos eficiente y escalable en miles de GPU. Este marco aprovecha una combinación de paralelismo de datos, tensor, secuencia y canalización, junto con varias estrategias de optimización como Zero Redundancy Optimizer (ZeRO) y entrenamiento de precisión mixta. ¿El resultado? Una reducción significativa en la huella de memoria necesaria para el entrenamiento, lo que conduce a mejoras de rendimiento notables.

Una de las innovaciones clave en InternLM2 es su capacidad para manejar longitudes de contexto extendidas. Por emplear Atención de consultas grupales (GQA), el modelo puede inferir secuencias largas con una huella de memoria menor. Además, el proceso de capacitación comienza con un corpus de contexto de 4K y pasa gradualmente a un corpus de contexto de 32K, lo que mejora aún más las capacidades de procesamiento de contexto prolongado del modelo.

Los investigadores no se detuvieron ahí. Ellos introducieron RLHF en línea condicional (COOL RLHF) (que se muestra en la Figura 8), un enfoque novedoso que aborda los desafíos de los conflictos de preferencias y la piratería de recompensas encontrados durante la etapa de aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). COOL RLHF emplea un modelo de recompensa condicional para conciliar diversas preferencias y ejecuta la optimización de políticas próximas (PPO) en múltiples rondas, mitigando la piratería de recompensas emergente en cada fase.

Para evaluar el desempeño de InternLM2, los investigadores realizaron evaluaciones integrales en varios dominios y tareas. Desde exámenes exhaustivos y desafíos de razonamiento hasta tareas de codificación y modelado de contexto prolongado, InternLM2 demostró una destreza notable. En particular, se destacó en tareas relacionadas con la comprensión del lenguaje, la aplicación del conocimiento y el razonamiento de sentido común, lo que lo convierte en una opción prometedora para aplicaciones del mundo real que exigen una sólida comprensión del lenguaje y un amplio conocimiento.

Además, InternLM2 demostró su competencia en la utilización de herramientas, un aspecto crucial para abordar problemas complejos del mundo real. Al aprovechar herramientas externas y API, el modelo mostró un rendimiento impresionante en conjuntos de datos de referencia como GSM8K, Math, MathBench, T-Eval y CIBench.

Las evaluaciones subjetivas, incluidas AlpacaEval, MTBench, CompassArena y AlignBench, resaltaron aún más la alineación excepcional de InternLM2 con las preferencias humanas. El modelo logró puntuaciones de última generación, superando a sus homólogos y demostrando sus sólidas capacidades en áreas como razonamiento, juegos de roles, matemáticas, codificación y creatividad.

En conclusión, InternLM2 representa un importante paso adelante en el desarrollo de modelos de lenguaje grandes. Con sus técnicas innovadoras, su marco de capacitación escalable y su rendimiento notable en una amplia gama de tareas, este modelo es un testimonio de la búsqueda incesante de superar los límites de la inteligencia artificial. A medida que los investigadores continúan perfeccionando y avanzando los LLM, podemos anticipar logros aún más innovadores que darán forma al futuro de la interacción hombre-máquina y las capacidades de resolución de problemas.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 39k+ ML


Vineet Kumar es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en el Instituto Indio de Tecnología (IIT), Kanpur. Es un entusiasta del aprendizaje automático. Le apasiona la investigación y los últimos avances en Deep Learning, Computer Vision y campos relacionados.