El Instituto Allen de IA (AI2) lanza OLMo 2: una nueva familia de modelos de lenguaje de código abierto 7B y 13B entrenados en tokens de hasta 5T

El desarrollo del modelado del lenguaje se centra en la creación de sistemas de inteligencia artificial que puedan procesar y generar texto con una fluidez similar a la humana. Estos modelos desempeñan funciones fundamentales en la traducción automática, la generación de contenidos y las aplicaciones de IA conversacional. Se basan en amplios conjuntos de datos y complejos algoritmos de entrenamiento para aprender patrones lingüísticos, lo que les permite comprender el contexto, responder consultas y crear texto coherente. La rápida evolución en este campo pone de relieve la creciente importancia de las contribuciones de código abierto, cuyo objetivo es democratizar el acceso a potentes sistemas de IA.

Un problema persistente en este campo ha sido el predominio de los modelos propietarios, que a menudo superan a los sistemas de código abierto debido a sus amplios recursos y canales de capacitación optimizados. Los sistemas propietarios con frecuencia aprovechan conjuntos de datos masivos, potencia informática y metodologías patentadas avanzadas, lo que crea una brecha de rendimiento que los modelos abiertos necesitan ayuda para cerrar. Esta disparidad limita la accesibilidad y la innovación en IA, ya que sólo las organizaciones bien financiadas pueden permitirse el lujo de desarrollar una tecnología de vanguardia.

Si bien son encomiables, los métodos actuales de código abierto aún deben abordar plenamente los desafíos de la escalabilidad, la estabilidad del entrenamiento y el rendimiento del modelo. Muchos modelos son parcialmente abiertos, proporcionando solo conjuntos de datos o metodologías limitados, o completamente abiertos pero necesitan una ventaja competitiva sobre sus contrapartes patentadas. Sin embargo, los avances recientes están allanando el camino para una nueva generación de modelos totalmente abiertos y competitivos en términos de rendimiento.

Se presenta el equipo de investigación del Instituto Allen para la IA OLMo 2una familia innovadora de modelos de lenguaje de código abierto. Estos modelos, disponibles en configuraciones de parámetros de 7 mil millones (7B) y 13 mil millones (13B), se entrenaron en hasta 5 billones de tokens utilizando técnicas de última generación. Al perfeccionar la estabilidad del entrenamiento, adoptar procesos de entrenamiento por etapas e incorporar diversos conjuntos de datos, los investigadores cerraron la brecha de rendimiento con sistemas propietarios como Llama 3.1. OLMo 2 aprovecha las mejoras en la normalización de capas, las incrustaciones posicionales rotativas y la regularización de pérdida Z para mejorar la solidez del modelo.

La formación de OLMo 2 empleó un enfoque curricular en dos etapas. En la primera etapa, que cubre el 90% del presupuesto de capacitación previa, los modelos se entrenaron en el conjunto de datos OLMo-Mix-1124, que comprende 3,9 billones de tokens procedentes de varios repositorios de alta calidad como DCLM y Starcoder. La segunda etapa implicó el ajuste de Dolmino-Mix-1124, un conjunto de datos curado de 843 mil millones de tokens que presenta contenido web y específico de dominio. Técnicas como la mejora de modelos, que fusiona puntos de control para optimizar el rendimiento, fueron fundamentales para lograr las versiones finales de los modelos 7B y 13B.

El rendimiento de OLMo 2 establece nuevos puntos de referencia en el campo del modelado de lenguajes de código abierto. En comparación con su predecesor, OLMo-0424, OLMo 2 demuestra un impulso significativo en todas las tareas de evaluación. OLMo 2 7B supera notablemente a Llama-3.1 8B, y OLMo 2 13B supera a Qwen 2.5 7B, a pesar de utilizar menos FLOP de entrenamiento. La evaluación utilizando el Sistema Abierto de Evaluación de Modelado de Lenguaje (OLMES), un conjunto de 20 puntos de referencia, confirmó estos avances, destacando las fortalezas en la recuperación de conocimientos, el razonamiento y las capacidades lingüísticas generales.

Las conclusiones clave de la investigación incluyen los siguientes avances:

Mejoras en la estabilidad del entrenamiento: Técnicas como RMSNorm y el recocido de la tasa de aprendizaje redujeron los picos de pérdida durante el entrenamiento previo, lo que garantiza un rendimiento constante del modelo.
Formación innovadora por etapas: Las intervenciones tardías previas a la capacitación, incluidos los ajustes del plan de estudios de datos, permitieron una mejora específica de las capacidades del modelo.
Marco de evaluación viable: La introducción de OLMES proporcionó puntos de referencia estructurados para guiar el desarrollo del modelo y realizar un seguimiento eficaz del progreso.
Metodologías Post-Capacitación: El ajuste fino supervisado, el ajuste de preferencias y el aprendizaje reforzado con recompensas verificables mejoraron las capacidades de seguimiento de instrucciones de los modelos.
Diversidad y calidad del conjunto de datos: El entrenamiento previo en conjuntos de datos como Dolmino-Mix-1124 garantizó que los modelos pudieran generalizarse en diversos dominios.

En conclusión, los logros de OLMo 2 significan un cambio en el panorama del modelado del lenguaje. Al abordar desafíos como la estabilidad del entrenamiento y la transparencia de la evaluación, los investigadores han establecido un nuevo estándar para la IA de código abierto. Estos modelos cierran la brecha con los sistemas propietarios y demuestran el potencial de la innovación colaborativa en el avance de la inteligencia artificial. La iniciativa OLMo 2 subraya el poder transformador del acceso abierto a modelos de IA de alto rendimiento, allanando el camino para avances tecnológicos más equitativos.

Verificar los modelos en la cara abrazada y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

El Instituto Allen de IA (AI2) lanza OLMo 2: una nueva familia de modelos de lenguaje de código abierto 7B y 13B entrenados en tokens de hasta 5T

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenAI lanza filtro de privacidad: un modelo de redacción de PII de código abierto de 1,500 millones de parámetros con 50 millones de parámetros activos

Conozca Talkie-1930: un LLM de peso abierto 13B capacitado en textos en inglés anteriores a 1931 para el razonamiento histórico y la investigación de generalización

¡Correlación no significa causalidad! ¿Pero qué significa?

You missed

OpenAI lanza filtro de privacidad: un modelo de redacción de PII de código abierto de 1,500 millones de parámetros con 50 millones de parámetros activos

Starbirth se cierra a 40.000 años luz del núcleo de la Vía Láctea, y los astrónomos no saben por qué

Llamar tirano a Trump no es un llamado a la violencia

La ‘ley’ de Baleares busca competencias para limitar los vuelos en temporada alta