Qwen abre fuentes de la potente, diversa y práctica serie Qwen2.5-Coder (0.5B/1.5B/3B/7B/14B/32B)

En el mundo del desarrollo de software, existe una necesidad constante de modelos de lenguaje de codificación más inteligentes, capaces y especializados. Si bien los modelos existentes han logrado avances significativos en la automatización de la generación, finalización y razonamiento del código, persisten varios problemas. Los principales desafíos incluyen la ineficiencia al abordar una amplia gama de tareas de codificación, la falta de experiencia en un dominio específico y la dificultad para aplicar modelos a escenarios de codificación del mundo real. A pesar del auge de muchos modelos de lenguajes grandes (LLM), los modelos de código específico a menudo han tenido dificultades para competir con sus homólogos propietarios, especialmente en términos de versatilidad y aplicabilidad. La necesidad de un modelo que no sólo funcione bien en los puntos de referencia estándar sino que también se adapte a diversos entornos nunca ha sido mayor.

Qwen2.5-Coder: una nueva era de LLM de código abierto

Qwen ha abierto la serie Qwen2.5-Coder “poderosa”, “diversa” y “práctica”, dedicada a promover continuamente el desarrollo de CodeLLM abiertos. La serie Qwen2.5-Coder se basa en la arquitectura Qwen2.5 y aprovecha su arquitectura avanzada y su tokenizador expansivo para mejorar la eficiencia y precisión de las tareas de codificación. Qwen ha dado un paso significativo al abrir estos modelos, haciéndolos accesibles a desarrolladores, investigadores y profesionales de la industria. Esta familia de modelos de codificadores ofrece una variedad de tamaños, desde parámetros de 0,5 B a 32 B, lo que brinda flexibilidad para una amplia variedad de necesidades de codificación. El lanzamiento de Qwen2.5-Coder-32B-Instruct llega en un momento oportuno, presentándose como el modelo de codificador más capaz y práctico de la serie Qwen. Destaca el compromiso de Qwen de fomentar la innovación y avanzar en el campo de los modelos de codificación de código abierto.

Detalles técnicos

Técnicamente, los modelos Qwen2.5-Coder se han sometido a un extenso entrenamiento previo en un vasto corpus de más de 5,5 billones de tokens, que incluye repositorios de códigos públicos y datos rastreados en la web a gran escala que contienen textos relacionados con códigos. La arquitectura del modelo se comparte entre diferentes tamaños de modelo (parámetros 1.5B y 7B) y presenta 28 capas con variaciones en tamaños ocultos y cabezales de atención. Además, Qwen2.5-Coder se ha perfeccionado utilizando conjuntos de datos sintéticos generados por su predecesor, CodeQwen1.5, incorporando un ejecutor para garantizar que solo se retenga el código ejecutable, reduciendo así los riesgos de alucinaciones. Los modelos también se han diseñado para ser versátiles y respaldar varios objetivos previos al entrenamiento, como la generación, finalización, razonamiento y edición de código.

Rendimiento de última generación

Una de las razones por las que Qwen2.5-Coder se destaca es su rendimiento demostrado en múltiples puntos de referencia de evaluación. Ha logrado consistentemente un rendimiento de vanguardia (SOTA) en más de 10 puntos de referencia, incluidos HumanEval y BigCodeBench, superando incluso a algunos modelos más grandes. Específicamente, Qwen2.5-Coder-7B-Base logró una mayor precisión en los puntos de referencia HumanEval y MBPP en comparación con modelos como StarCoder2 y DeepSeek-Coder de tamaños comparables o incluso mayores. La serie Qwen2.5-Coder también destaca en capacidades de lenguajes de programación múltiple, demostrando un dominio equilibrado en ocho lenguajes, como Python, Java y TypeScript. Además, las capacidades de contexto largo de Qwen2.5-Coder son notablemente sólidas, lo que lo hace adecuado para manejar código a nivel de repositorio y admitir de manera efectiva entradas de hasta 128k tokens.

Escalabilidad y Accesibilidad

Además, la disponibilidad de modelos en varios tamaños de parámetros (que van desde 0,5B a 32B), junto con la opción de formatos cuantificados como GPTQ, AWQ y GGUF, garantizan que Qwen2.5-Coder pueda satisfacer una amplia gama de requisitos computacionales. Esta escalabilidad es crucial para los desarrolladores e investigadores que tal vez no tengan acceso a recursos computacionales de alto nivel pero aún necesitan beneficiarse de poderosas capacidades de codificación. La versatilidad de Qwen2.5-Coder al admitir diferentes formatos lo hace más accesible para un uso práctico, lo que permite una adopción más amplia en diversas aplicaciones. Esta adaptabilidad convierte a la familia Qwen2.5-Coder en una herramienta vital para promover el desarrollo de asistentes de codificación de código abierto.

Conclusión

El código abierto de la serie Qwen2.5-Coder marca un importante paso adelante en el desarrollo de modelos de lenguajes de codificación. Al lanzar modelos potentes, diversos y prácticos, Qwen ha abordado las limitaciones clave de los modelos específicos de código existentes. La combinación de rendimiento, escalabilidad y flexibilidad de última generación hace de la familia Qwen2.5-Coder un activo valioso para la comunidad global de desarrolladores. Ya sea que esté buscando aprovechar las capacidades de un modelo de 0.5B o necesite la potencia expansiva de una variante de 32B, la familia Qwen2.5-Coder tiene como objetivo satisfacer las necesidades de una amplia gama de usuarios. De hecho, ahora es el momento perfecto para explorar las posibilidades con el mejor modelo de codificador de Qwen, el Qwen2.5-Coder-32B-Instruct, así como su versátil familia de codificadores más pequeños. Demos la bienvenida a esta nueva era de modelos de lenguajes de codificación de código abierto que continúan ampliando los límites de la innovación y la accesibilidad.

Mira el Papel, Modelos abrazando la cara, Manifestación, y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Upcoming Live LinkedIn event] ‘Una plataforma, posibilidades multimodales’, donde el director ejecutivo de Encord, Eric Landau, y el jefe de ingeniería de productos, Justin Sharps, hablarán sobre cómo están reinventando el proceso de desarrollo de datos para ayudar a los equipos a construir rápidamente modelos de IA multimodales innovadores.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Escuche nuestros últimos podcasts de IA y vídeos de investigación de IA aquí ➡️

Qwen abre fuentes de la potente, diversa y práctica serie Qwen2.5-Coder (0.5B/1.5B/3B/7B/14B/32B)

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Guía paso a paso para crear y comparar el aprendizaje federado FedAvg y FedProx en CIFAR-10 sin IID con NVIDIA FLARE

Construí mi primer canal ETL como un completo principiante. He aquí cómo.

WorkOS lanza auth.md: un protocolo de registro de agente abierto basado en estándares OAuth

You missed

Observatorio de la Familia de Orihuela propone plazas de aparcamiento familiares y maternales – El Líder

El teléfono de Nick Jonas con su esposa Priyanka Chopra y su hija Malti es demasiado lindo para perdérselo

Cuando tu corazón ataca, tu cerebro paga el precio

El sumario vincula la ‘offshore’ de Zapatero con el negocio del oro venezolano