Se lanzaron los modelos Qwen 2.5: incluye Qwen2.5, Qwen2.5-Coder y Qwen2.5-Math con parámetros de 72 B y compatibilidad con contexto de 128 K

El equipo Qwen de Alibaba ha causado revuelo recientemente en la comunidad de IA/ML al lanzar su última serie de modelos de lenguaje grandes (LLM), Qwen2.5Estos modelos han tomado por asalto el panorama de la IA, con importantes capacidades, puntos de referencia y mejoras de escalabilidad. De 0,5 mil millones a 72 mil millones de parámetros, Qwen2.5 ha introducido mejoras notables en varias áreas clave, incluida la codificación, las matemáticas, el seguimiento de instrucciones y el soporte multilingüe. La versión incluye modelos especializados, como Codificador Qwen2.5 y Qwen2.5-Matemáticasdiversificando aún más la gama de aplicaciones para las que se pueden optimizar estos modelos.

Descripción general de la serie Qwen2.5

Uno de los aspectos más emocionantes de Qwen2.5 es su versatilidad y rendimiento, lo que le permite desafiar a algunos de los modelos más potentes del mercado, incluidos Llama 3.1 y Mistral Large 2. La variante de primer nivel de Qwen2.5, el modelo de 72 mil millones de parámetros, rivaliza directamente con Llama 3.1 (405 mil millones de parámetros) y Mistral Large 2 (123 mil millones de parámetros) en términos de rendimiento, lo que demuestra la fortaleza de su arquitectura subyacente a pesar de tener menos parámetros.

Los modelos Qwen2.5 se entrenaron en un amplio conjunto de datos que contiene hasta 18 billones de tokens, lo que les proporcionó un vasto conocimiento y datos para la generalización. Los resultados de referencia de Qwen2.5 muestran mejoras masivas con respecto a su predecesor, Qwen2, en varias métricas clave. Los modelos han logrado puntajes significativamente más altos en el punto de referencia MMLU (Massive Multitask Language Understanding), superando el 85. HumanEval con puntajes superiores a 85 y los puntos de referencia MATH donde obtuvieron puntajes superiores a 80. Estas mejoras hacen de Qwen2.5 uno de los modelos más capaces en dominios que requieren razonamiento estructurado, codificación y resolución de problemas matemáticos.

Capacidades multilingües y de contexto largo

Una de las características que definen a Qwen2.5 es su capacidad de procesamiento de contextos extensos, que admite una longitud de contexto de hasta 128 000 tokens. Esto es crucial para tareas que requieren entradas extensas y complejas, como el análisis de documentos legales o la generación de contenido extenso. Además, los modelos pueden generar hasta 8192 tokens, lo que los hace ideales para generar informes detallados, narrativas o incluso manuales técnicos.

La serie Qwen2.5 admite 29 idiomas, lo que la convierte en una herramienta sólida para aplicaciones multilingües. Esta gama incluye los principales idiomas mundiales, como chino, inglés, francés, español, portugués, alemán, italiano, ruso, japonés, coreano, vietnamita, tailandés y árabe. Esta amplia compatibilidad multilingüe garantiza que Qwen2.5 se pueda utilizar para diversas tareas en diversos contextos lingüísticos y culturales, desde la generación de contenido hasta los servicios de traducción.

Especialización con Qwen2.5-Coder y Qwen2.5-Math

Alibaba también ha lanzado variantes especializadas con modelos básicos: Qwen2.5-Coder y Qwen2.5-Math. Estos modelos especializados se centran en dominios como la codificación y las matemáticas, con configuraciones optimizadas para estos casos de uso específicos.

El Codificador Qwen2.5 La variante estará disponible en configuraciones de 1.500 millones, 7.000 millones y 32.000 millones de parámetros. Estos modelos están diseñados para sobresalir en tareas de programación y se espera que sean herramientas poderosas para el desarrollo de software, la generación automatizada de código y otras actividades relacionadas.
El Qwen2.5-Matemáticas Por otro lado, la variante Qwen2.5-Math está específicamente diseñada para el razonamiento matemático y la resolución de problemas. Viene en tamaños de parámetros de 1500 millones, 7000 millones y 72 000 millones, y se adapta tanto a tareas ligeras como a tareas computacionalmente intensivas en matemáticas. Esto hace que Qwen2.5-Math sea un candidato ideal para la investigación académica, las plataformas educativas y las aplicaciones científicas.

Qwen2.5: modelos 0.5B, 1.5B y 72B

Entre los nuevos modelos lanzados se destacan tres variantes clave: Qwen2.5-0.5B, Qwen2.5-1.5B y Qwen2.5-72B. Estos modelos cubren una amplia gama de escalas de parámetros y están diseñados para abordar diversas necesidades computacionales y específicas de cada tarea.

El modelo Qwen2.5-0.5B, con 0,49 mil millones de parámetros, sirve como modelo base para tareas de propósito general. Utiliza una arquitectura basada en transformadores con incrustaciones de posición rotatoria (RoPE), activación de SwiGLU y RMSNorm para la normalización, junto con mecanismos de atención que presentan sesgo QKV. Si bien este modelo no está optimizado para tareas de diálogo o conversación, aún puede manejar una variedad de necesidades de generación y procesamiento de texto.

El modelo Qwen2.5-1.5B, con 1540 millones de parámetros, se basa en la misma arquitectura pero ofrece un rendimiento mejorado para tareas más complejas. Este modelo es adecuado para aplicaciones que requieren una comprensión más profunda y contextos más extensos, como la investigación, el análisis de datos y la redacción técnica.

Por último, el modelo Qwen2.5-72B representa la variante de primer nivel con 72 mil millones de parámetros, lo que lo posiciona como un competidor de algunos de los LLM más avanzados. Su capacidad para manejar grandes conjuntos de datos y un contexto extenso lo hace ideal para aplicaciones de nivel empresarial, desde la generación de contenido hasta la inteligencia empresarial y la investigación avanzada de aprendizaje automático.

Características arquitectónicas clave

La serie Qwen 2.5 comparte varios avances arquitectónicos clave que hacen que estos modelos sean altamente eficientes y adaptables:

RoPE (Incrustaciones de posición rotatoria): RoPE permite el procesamiento eficiente de entradas de contexto largo, mejorando significativamente la capacidad de los modelos para manejar secuencias de texto extendidas sin perder coherencia.
SwiGLU (Unidades lineales con compuerta Swish): Esta función de activación mejora la capacidad de los modelos para capturar patrones complejos en los datos manteniendo la eficiencia computacional.
Norma RMS: RMSNorm es una técnica de normalización para estabilizar el entrenamiento y mejorar los tiempos de convergencia. Resulta útil cuando se trabaja con modelos y conjuntos de datos más grandes.
Atención con sesgo QKV: Este mecanismo de atención mejora la capacidad de los modelos para centrarse en la información relevante dentro de los datos de entrada, lo que garantiza resultados más precisos y apropiados al contexto.

Conclusión

El lanzamiento de Qwen2.5 y sus variantes especializadas marca un salto significativo en las capacidades de inteligencia artificial y aprendizaje automático. Con sus mejoras en el manejo de contextos largos, soporte multilingüe, seguimiento de instrucciones y generación de datos estructurados, Qwen2.5 está destinado a desempeñar un papel fundamental en varias industrias. Los modelos especializados, Qwen2.5-Coder y Qwen2.5-Math, amplían aún más la utilidad de la serie, ofreciendo soluciones específicas para aplicaciones matemáticas y de codificación.

Se espera que la serie Qwen2.5 desafíe a los principales modelos de lenguaje generativo, como Llama 3.1 y Mistral Large 2, y demuestre que el equipo Qwen de Alibaba sigue ampliando los límites en los modelos de IA a gran escala. Con tamaños de parámetros que van desde 0,5 mil millones a 72 mil millones, la serie atiende a una amplia gama de casos de uso, desde tareas livianas hasta aplicaciones de nivel empresarial. A medida que avance la IA, los modelos como Qwen2.5 serán fundamentales para dar forma al futuro de la tecnología del lenguaje generativo.

Echa un vistazo a la Colección de modelos en HF y DetallesTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

⏩ ⏩ SEMINARIO WEB GRATUITO SOBRE IA: ‘SAM 2 para video: cómo optimizar sus datos’ (miércoles 25 de septiembre, 4:00 a. m. a 4:45 a. m. EST)

Se lanzaron los modelos Qwen 2.5: incluye Qwen2.5, Qwen2.5-Coder y Qwen2.5-Math con parámetros de 72 B y compatibilidad con contexto de 128 K

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Pequeños datos, grandes mapas: entrenamiento de modelos de aprendizaje automático geoespaciales cuando las muestras son escasas

Creación de un motor de búsqueda semántico y un clasificador de estado abierto sobre el conjunto de datos ResearchMath-14k

PATH impulsará la formación en IA y las oportunidades profesionales para puestos de trabajo alineados con la industria | Noticias del MIT

You missed

Los recortes al programa oceánico de EE. UU. obstaculizarán el seguimiento de El Niño y AMOC

“La amenaza TQ+ a los derechos LGB”

El Festival de la Moda de Ibiza hace un cambio importante

Especies raras de antílope detectadas, comportamiento extraño de partículas, organismo unicelular caníbal y el extraño efecto secundario de un fármaco antienvejecimiento