El desarrollo del modelado del lenguaje se centra en la creación de sistemas de inteligencia artificial que puedan procesar y generar texto con una fluidez similar a la humana. Estos modelos desempeñan funciones fundamentales en la traducción automática, la generación de contenidos y las aplicaciones de IA conversacional. Se basan en amplios conjuntos de datos y complejos algoritmos de entrenamiento para aprender patrones lingüísticos, lo que les permite comprender el contexto, responder consultas y crear texto coherente. La rápida evolución en este campo pone de relieve la creciente importancia de las contribuciones de código abierto, cuyo objetivo es democratizar el acceso a potentes sistemas de IA.
Un problema persistente en este campo ha sido el predominio de los modelos propietarios, que a menudo superan a los sistemas de código abierto debido a sus amplios recursos y canales de capacitación optimizados. Los sistemas propietarios con frecuencia aprovechan conjuntos de datos masivos, potencia informática y metodologías patentadas avanzadas, lo que crea una brecha de rendimiento que los modelos abiertos necesitan ayuda para cerrar. Esta disparidad limita la accesibilidad y la innovación en IA, ya que sólo las organizaciones bien financiadas pueden permitirse el lujo de desarrollar una tecnología de vanguardia.
Si bien son encomiables, los métodos actuales de código abierto aún deben abordar plenamente los desafíos de la escalabilidad, la estabilidad del entrenamiento y el rendimiento del modelo. Muchos modelos son parcialmente abiertos, proporcionando solo conjuntos de datos o metodologías limitados, o completamente abiertos pero necesitan una ventaja competitiva sobre sus contrapartes patentadas. Sin embargo, los avances recientes están allanando el camino para una nueva generación de modelos totalmente abiertos y competitivos en términos de rendimiento.
Se presenta el equipo de investigación del Instituto Allen para la IA OLMo 2una familia innovadora de modelos de lenguaje de código abierto. Estos modelos, disponibles en configuraciones de parámetros de 7 mil millones (7B) y 13 mil millones (13B), se entrenaron en hasta 5 billones de tokens utilizando técnicas de última generación. Al perfeccionar la estabilidad del entrenamiento, adoptar procesos de entrenamiento por etapas e incorporar diversos conjuntos de datos, los investigadores cerraron la brecha de rendimiento con sistemas propietarios como Llama 3.1. OLMo 2 aprovecha las mejoras en la normalización de capas, las incrustaciones posicionales rotativas y la regularización de pérdida Z para mejorar la solidez del modelo.
La formación de OLMo 2 empleó un enfoque curricular en dos etapas. En la primera etapa, que cubre el 90% del presupuesto de capacitación previa, los modelos se entrenaron en el conjunto de datos OLMo-Mix-1124, que comprende 3,9 billones de tokens procedentes de varios repositorios de alta calidad como DCLM y Starcoder. La segunda etapa implicó el ajuste de Dolmino-Mix-1124, un conjunto de datos curado de 843 mil millones de tokens que presenta contenido web y específico de dominio. Técnicas como la mejora de modelos, que fusiona puntos de control para optimizar el rendimiento, fueron fundamentales para lograr las versiones finales de los modelos 7B y 13B.
El rendimiento de OLMo 2 establece nuevos puntos de referencia en el campo del modelado de lenguajes de código abierto. En comparación con su predecesor, OLMo-0424, OLMo 2 demuestra un impulso significativo en todas las tareas de evaluación. OLMo 2 7B supera notablemente a Llama-3.1 8B, y OLMo 2 13B supera a Qwen 2.5 7B, a pesar de utilizar menos FLOP de entrenamiento. La evaluación utilizando el Sistema Abierto de Evaluación de Modelado de Lenguaje (OLMES), un conjunto de 20 puntos de referencia, confirmó estos avances, destacando las fortalezas en la recuperación de conocimientos, el razonamiento y las capacidades lingüísticas generales.
Las conclusiones clave de la investigación incluyen los siguientes avances:
- Mejoras en la estabilidad del entrenamiento: Técnicas como RMSNorm y el recocido de la tasa de aprendizaje redujeron los picos de pérdida durante el entrenamiento previo, lo que garantiza un rendimiento constante del modelo.
- Formación innovadora por etapas: Las intervenciones tardías previas a la capacitación, incluidos los ajustes del plan de estudios de datos, permitieron una mejora específica de las capacidades del modelo.
- Marco de evaluación viable: La introducción de OLMES proporcionó puntos de referencia estructurados para guiar el desarrollo del modelo y realizar un seguimiento eficaz del progreso.
- Metodologías Post-Capacitación: El ajuste fino supervisado, el ajuste de preferencias y el aprendizaje reforzado con recompensas verificables mejoraron las capacidades de seguimiento de instrucciones de los modelos.
- Diversidad y calidad del conjunto de datos: El entrenamiento previo en conjuntos de datos como Dolmino-Mix-1124 garantizó que los modelos pudieran generalizarse en diversos dominios.
En conclusión, los logros de OLMo 2 significan un cambio en el panorama del modelado del lenguaje. Al abordar desafíos como la estabilidad del entrenamiento y la transparencia de la evaluación, los investigadores han establecido un nuevo estándar para la IA de código abierto. Estos modelos cierran la brecha con los sistemas propietarios y demuestran el potencial de la innovación colaborativa en el avance de la inteligencia artificial. La iniciativa OLMo 2 subraya el poder transformador del acceso abierto a modelos de IA de alto rendimiento, allanando el camino para avances tecnológicos más equitativos.
Verificar los modelos en la cara abrazada y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.