JetBrains ha sido oficialmente abierto Mellumun modelo de lenguaje de 4 billones de parámetros especialmente diseñado para tareas de desarrollo de software. Desarrollado desde cero, Mellum refleja el enfoque de ingeniería de JetBrains, que ofrece un modelo de dominio capacitado para un uso práctico a través de bases de código y entornos de programación. Con su lanzamiento en Hugging Face bajo la licencia Apache 2.0, JetBrains extiende una invitación a la comunidad más amplia de investigación y desarrollador para experimentar, adaptar y avanzar en las capacidades de Mellum.
Un modelo focal para la comprensión del código
A diferencia de las LLM de uso general, Mellum se clasifica por JetBrains como un “modelo focal”, un término que usan para describir modelos con una especialización estrecha pero profunda. Mellum está optimizado específicamente para tareas relacionadas con la programación, como el autocompleto, el relleno y la comprensión estructural del código fuente. Este diseño enfocado evita la sobrecarga de modelado lingüístico más amplio y permite que el modelo funcione de manera eficiente en entornos IDE.
El modelo admite una amplia gama de idiomas que incluyen Java, Kotlin, Python, GO, PHP, C, C ++, C#, JavaScript, TypeScript, CSS, HTML, Rust y Ruby, reflejando la naturaleza políglota de los equipos de desarrollo modernos.
Arquitectura de modelo y tuberías de capacitación
Mellum sigue una arquitectura de estilo Llama y fue entrenado desde cero usando Over Over 4.2 billones de tokens extraído de fuentes ricas en código como Stack, Starcoder, Commitpack e English Wikipedia. Cuenta con una ventana de contexto de token de 8k y fue entrenado utilizando BF16 Precisión mixta A través de un grupo de alto rendimiento de 256 GPU H200 NVIDIA conectados a través de InfiniBand.
El proceso de capacitación abarcó aproximadamente 20 días y aprovechó la infraestructura moderna para el desarrollo de modelos escalables. El procedimiento de arquitectura y capacitación se diseñó con la reproducibilidad y la flexibilidad de despliegue en mente, lo que hace que Mellum se pueda usar tanto en las configuraciones de inferencia de nubes (por ejemplo, VLLM) como en entornos locales (por ejemplo, LLAMA.CPP, Ollama).
Benchmarking and Evaluation
JetBrains evaluó Mellum en una gama de puntos de referencia que reflejan sus casos de uso principales: el relleno y finalización del código. El rendimiento del modelo indica una fuerte alineación con los objetivos de diseño:
- Repobench v1.1 (contexto de 8k):
- Python EM: 27.97%
- Java EM: 31.08%
- Safim (sintaxis al llenado en el medio):
- Relleno humano:
- Línea única: 66.21%
- Multi-línea: 38.52%
- Span aleatorio: 29.70%
Estos resultados reflejan la especialización de Mellum para la comprensión de código estructurado, especialmente en escenarios que involucran un código parcial o interrumpido, que son comunes en los flujos de trabajo de desarrollo del mundo real.
Justificación para abastecimiento abierto
La decisión de Jetbrains de liberar a Mellum como código abierto se basa en varias motivaciones prácticas:
- Transparencia: Permite el escrutinio de los datos de entrenamiento y las decisiones arquitectónicas.
- Reutilización: Apoya la integración en entornos de desarrollo personalizados y experimentos de investigación.
- Colaboración comunitaria: Facilita la contribución de los desarrolladores externos para refinar el comportamiento del modelo.
- Valor pedagógico: Proporciona a los educadores y a los estudiantes un artefacto práctico para comprender cómo se construyen y aplican LLM específicos del dominio.
El lanzamiento incluye ambos modelo base (Mellum-4b-base) y un variante afina para Python (Mellum-4b-sft-python).
Implicaciones para las herramientas para desarrolladores
La disponibilidad de un modelo compacto y de rendimiento optimizado para el código fuente abre nuevas oportunidades en el espacio IDE y más allá. JetBrains visualiza Mellum como parte de una estrategia más amplia que involucra múltiples modelos focales, cada uno optimizado para tareas de programación específicas, como la generación de diff o la asistencia de revisión de código. Este enfoque se alinea con la creciente necesidad de herramientas AI desplegables, rentables y con contexto que pueden aumentar la productividad del desarrollador sin introducir modelos opacos o de uso general opacos o de gran tamaño.
Conclusión
Mellum representa un cambio deliberado hacia modelos de lenguaje más pequeños y especializados que priorizan la utilidad, la transparencia y la eficiencia. Al hacer que el modelo esté disponible, JetBrains ofrece una base de alta calidad para construir la próxima generación de herramientas de desarrollador asistidas por AI. Su arquitectura, metodología de capacitación y rendimiento de referencia indican un paso práctico en el espacio evolutivo de LLMS adaptados para la ingeniería de software.
El lanzamiento incluye ambos modelo base (Mellum-4b-base) y un variante afina para Python (Mellum-4b-sft-python). Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.