Conozca Moxin LLM 7B: un modelo de lenguaje totalmente de código abierto desarrollado de acuerdo con el Model Openness Framework (MOF)

El rápido desarrollo de los modelos de lenguaje grande (LLM) ha transformado el procesamiento del lenguaje natural (PLN). Los modelos propietarios como GPT-4 y Claude 3 han establecido altos estándares en términos de rendimiento, pero a menudo presentan desventajas como costos elevados, accesibilidad limitada y metodologías opacas. Mientras tanto, muchos de los llamados modelos de código abierto no logran encarnar plenamente los ideales de apertura, reteniendo elementos clave como datos de capacitación y procesos de ajuste y, a menudo, aplicando licencias restrictivas. Estas prácticas obstaculizan la innovación, reducen la reproducibilidad y complican la adopción en todas las industrias. Abordar estas barreras es crucial para fomentar la confianza, la colaboración y el progreso en el ecosistema de la IA.

Presentamos Moxin LLM 7B

Investigadores de la Universidad Northeastern, la Universidad de Harvard, la Universidad de Cornell, la Universidad de Tulane, la Universidad de Washington, Roboraction.ai, Futurewei Technologies y AIBAO LLC lanzan Moxina LLM 7B para abordar estos desafíos, guiados por los principios de transparencia e inclusión. Desarrollado bajo el Model Openness Framework (MOF), proporciona acceso completo a su código previo al entrenamiento, conjuntos de datos, configuraciones y puntos de control intermedios. Este modelo totalmente de código abierto está disponible en dos versiones:Base y Chat—y logra la clasificación más alta del MOF, “ciencia abierta”. Con un tamaño de contexto de token de 32k y características como atención de consultas agrupadas (GQA) y atención de ventanas deslizantes (SWA), Moxin LLM 7B ofrece una opción sólida pero accesible para aplicaciones de codificación y PNL. Es una herramienta valiosa para investigadores, desarrolladores y empresas que buscan soluciones flexibles y de alto rendimiento.

Innovaciones técnicas y beneficios clave

Moxin LLM 7B se basa en la arquitectura de Mistral y la mejora con un diseño ampliado de 36 bloques. Esta extensión integra GQA para mejorar la eficiencia de la memoria y SWA para procesar secuencias largas de manera efectiva. La inclusión de un caché de búfer continuo optimiza el uso de la memoria, lo que hace que el modelo sea ideal para manejar contextos extendidos en aplicaciones del mundo real.

El proceso de capacitación del modelo se basa en fuentes de datos cuidadosamente seleccionadas, incluidas SlimPajama y DCLM-BASELINE para texto, y The Stack para codificación. Al aprovechar las técnicas avanzadas de paralelización de Colossal-AI, el modelo se entrenó en más de 2 billones de tokens a través de tres fases, cada una de las cuales aumentó progresivamente la longitud del contexto y refinó capacidades específicas.

Estas opciones de diseño garantizan varios beneficios clave. Primero, la naturaleza de código abierto de Moxin LLM 7B permite la personalización y adaptabilidad en diversos dominios. En segundo lugar, su sólido desempeño en evaluaciones de pocas y cero pruebas demuestra su capacidad para manejar desafíos complejos de razonamiento, codificación y multitarea. Finalmente, el equilibrio del modelo entre eficiencia computacional y calidad de resultados lo hace práctico tanto para casos de uso de investigación como del mundo real.

Información sobre el rendimiento

Moxin LLM 7B ha sido sometido a una rigurosa evaluación frente a modelos comparables. En configuraciones de disparo cero, supera a alternativas como LLaMA 2-7B y Gemma-7B en puntos de referencia que incluyen AI2 Reasoning Challenge, HellaSwag y PIQA. Por ejemplo, la versión mejorada logra un impresionante 82,24% en PIQA, lo que marca una mejora significativa con respecto a los modelos de última generación existentes.

Los resultados de la evaluación de pocas oportunidades del modelo subrayan aún más sus fortalezas, particularmente en tareas que requieren razonamiento avanzado y conocimiento de un dominio específico. Las evaluaciones que utilizan MTBench destacan las capacidades de Moxin Chat 7B como asistente interactivo, logrando puntuaciones competitivas que a menudo rivalizan con las de modelos propietarios más grandes.

Conclusión

Moxin LLM 7B se destaca como una contribución significativa al panorama de LLM de código abierto. Al adoptar plenamente los principios del Marco de Apertura del Modelo, aborda cuestiones críticas de transparencia, reproducibilidad y accesibilidad que a menudo desafían a otros modelos. Con su sofisticación técnica, rendimiento sólido y compromiso con la apertura, Moxin LLM 7B ofrece una alternativa convincente a las soluciones patentadas. A medida que el papel de la IA continúa creciendo en todas las industrias, modelos como Moxin LLM 7B sientan las bases para un futuro más colaborativo, inclusivo e innovador en el procesamiento del lenguaje natural y más allá.


Mira el Papel, Página de GitHub, Modelo básicoy Modelo de chat. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones inigualable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.