Screenshot 2024 02 06 At 2.01.19 Pm.png

Con la creciente complejidad y capacidad de la Inteligencia Artificial (IA), su última innovación, es decir, los Grandes Modelos de Lenguaje (LLM), ha demostrado grandes avances en tareas, incluida la generación de texto, la traducción de idiomas, el resumen de texto y la finalización de código. Los modelos más sofisticados y potentes suelen ser privados, lo que limita el acceso a los elementos esenciales de sus procedimientos de entrenamiento, incluidos los detalles de la arquitectura, los datos de entrenamiento y la metodología de desarrollo.

La falta de transparencia impone desafíos, ya que se requiere acceso total a dicha información para comprender, evaluar y mejorar estos modelos, especialmente cuando se trata de encontrar y reducir sesgos y evaluar peligros potenciales. Para abordar estos desafíos, investigadores del Instituto Allen de IA (AI2) han lanzado OLMo (Open Language Model), un marco destinado a promover una atmósfera de transparencia en el campo del procesamiento del lenguaje natural.

OLMo es una excelente introducción al reconocimiento de la necesidad vital de apertura en la evolución de la tecnología de modelos lingüísticos. OLMo se ha ofrecido como un marco completo para la creación, análisis y mejora de modelos de lenguaje en lugar de solo como un modelo de lenguaje adicional. No sólo ha hecho accesibles los pesos y las capacidades de inferencia del modelo, sino que también ha hecho accesible todo el conjunto de herramientas utilizadas en su desarrollo. Esto incluye el código utilizado para entrenar y evaluar el modelo, los conjuntos de datos utilizados para el entrenamiento y la documentación completa de la arquitectura y el proceso de desarrollo.

Las características clave de OLMo son las siguientes.

  1. OLMo se ha construido sobre el conjunto Dolma de AI2 y tiene acceso a un corpus abierto considerable, lo que hace posible un fuerte entrenamiento previo del modelo.
  1. Para fomentar la apertura y facilitar investigaciones adicionales, el marco ofrece todos los recursos necesarios para comprender y duplicar el procedimiento de capacitación del modelo.
  1. Se han incluido amplias herramientas de evaluación que permiten una evaluación rigurosa del rendimiento del modelo, mejorando la comprensión científica de sus capacidades.

OLMo ha estado disponible en varias versiones, los modelos actuales son modelos de parámetros 1B y 7B, con una versión más grande de 65B en proceso. La complejidad y el poder del modelo se pueden ampliar escalando su tamaño, lo que puede acomodar una variedad de aplicaciones que van desde tareas simples de comprensión del lenguaje hasta trabajos generativos sofisticados que requieren un conocimiento contextual profundo.

El equipo ha compartido que OLMo ha pasado por un exhaustivo procedimiento de evaluación que incluye fases tanto en línea como fuera de línea. El marco Catwalk se ha utilizado para la evaluación fuera de línea, que incluye evaluaciones de modelado de lenguaje intrínseco y posterior utilizando el punto de referencia de perplejidad de Paloma. Durante la capacitación, se han utilizado evaluaciones en línea en bucle para influir en las decisiones sobre inicialización, arquitectura y otros temas.

La evaluación posterior ha informado un desempeño cero en nueve tareas principales alineadas con el razonamiento de sentido común. La evaluación del modelado del lenguaje intrínseco utilizó el gran conjunto de datos de Paloma, que abarca 585 dominios de texto diferentes. OLMo-7B se destaca como el modelo más grande para evaluaciones de perplejidad y el uso de puntos de control intermedios mejora la comparabilidad con los modelos RPJ-INCITE-7B y Pythia-6.9B. Este enfoque de evaluación garantiza una comprensión integral de las capacidades de OLMo.

En conclusión, OLMo es un gran paso hacia la creación de un ecosistema para la investigación abierta. Su objetivo es aumentar las capacidades tecnológicas de los modelos lingüísticos y al mismo tiempo garantizar que estos desarrollos se realicen de manera inclusiva, transparente y ética.


Revisar la Papel, Modelo, y Blog. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.