Lanzamientos del Allen Institute for AI (AI2) OLMO 32B: Un modelo completamente abierto para vencer a GPT 3.5 y GPT-4O Mini en una suite de puntos de referencia de múltiples calificaciones

La rápida evolución de la inteligencia artificial (IA) ha marcado el comienzo de una nueva era de modelos de lenguaje grande (LLM) capaz de comprender y generar texto humano. Sin embargo, la naturaleza patentada de muchos de estos modelos plantea desafíos para la accesibilidad, la colaboración y la transparencia dentro de la comunidad de investigación. Además, los recursos computacionales sustanciales necesarios para capacitar a dichos modelos a menudo limitan la participación a organizaciones bien financiadas, obstaculizando así una innovación más amplia.

Al abordar estas preocupaciones, el Allen Institute for AI (AI2) ha introducido OLMO 2 32B, el modelo más último y más avanzado de la serie Olmo 2. Este modelo se distingue como el primer modelo completamente abierto para superar a GPT-3.5 Turbo y GPT-4O Mini en un conjunto de puntos de referencia académicos de múltiples calificaciones ampliamente reconocidos. Al hacer todos los datos, código, pesas y detalles de capacitación gratuitos, AI2 promueve una cultura de apertura y colaboración, lo que permite a los investigadores de todo el mundo construir sobre este trabajo.

La arquitectura de OLMO 2 32B comprende 32 mil millones de parámetros, lo que refleja una escala significativa de sus predecesores. El proceso de entrenamiento se estructuró meticulosamente en dos fases primarias: previación y entrenamiento medio. Durante el pretréngra, el modelo se expuso a aproximadamente 3.9 billones de tokens de diversas fuentes, incluidos DCLM, Dolma, Starcoder y Proof Plain II, lo que garantiza una comprensión integral de los patrones de lenguaje. La fase de entrenamiento media utilizó el conjunto de datos Dolmino, que consta de 843 mil millones de tokens seleccionados para la calidad, que abarca contenido educativo, matemático y académico. Este enfoque gradual aseguró que OLMO 2 32B desarrollara una comprensión robusta y matizada del lenguaje.

Un aspecto notable de OLMO 2 32B es su eficiencia de entrenamiento. El modelo logró niveles de rendimiento comparables a los principales modelos de peso abierto, al tiempo que utiliza solo una fracción de los recursos computacionales. Específicamente, requirió aproximadamente un tercio del cómputo de entrenamiento en comparación con modelos como Qwen 2.5 32b, destacando el compromiso de AI2 con el desarrollo de IA con eficiencia de recursos. ​

En las evaluaciones de referencia, OLMO 2 32B demostró resultados impresionantes. Coincidió o excedió el rendimiento de modelos como GPT-3.5 Turbo, GPT-4O Mini, Qwen 2.5 32b y Mistral 24B. Además, se acercó a los niveles de rendimiento de modelos más grandes como Qwen 2.5 72B y LLAMA 3.1 y 3.3 70B. Estas evaluaciones abarcaron varias tareas, incluida la comprensión de lenguaje multitarea masiva (MMLU), la resolución de problemas de las matemáticas (matemáticas) y las evaluaciones de seguimiento de instrucciones (IFEVal), subrayando la versatilidad y competencia del modelo en diversos desafíos lingüísticos. ​

El lanzamiento de OLMO 2 32B significa un avance fundamental en la búsqueda de la IA abierta y accesible. Al proporcionar un modelo completamente abierto con el que no solo compite, sino que también supera ciertos modelos patentados, AI2 ejemplifica cómo la escala reflexiva y las metodologías de entrenamiento eficientes pueden conducir a avances significativos. Esta apertura fomenta un entorno más inclusivo y colaborativo, lo que permite a los investigadores y desarrolladores a nivel mundial para participar y contribuir al panorama evolutivo de la inteligencia artificial.


Verificar el Detalle técnico, Proyecto HF y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.