Screenshot 2024 01 20 At 9.04.45 Pm.png




Stable AI ha lanzado recientemente un nuevo modelo de última generación, Código estable-3B, diseñado para completar código en varios lenguajes de programación con múltiples capacidades adicionales. El modelo es una continuación del Stable Code Alpha 3B. Está entrenado en 1,3 billones de tokens, incluidos datos en lenguaje natural y datos de código en 18 lenguajes y códigos de programación. En comparación con los modelos existentes CodeLLaMA 7b, el stable-code-3b es un 60% más pequeño, manteniendo el rendimiento de alto nivel del modelo.

Código estable-3B es un modelo de lenguaje autorregresivo basado en la arquitectura del decodificador transformador. Ofrece muchas más funciones, utiliza el concepto de capacidad intermedia de relleno (FIM) y está entrenado en 16384 tokens de secuencia larga que admiten contextos largos. Sus dos características clave son las incrustaciones de posición giratoria y un tokenizador especial para capacidad intermedia, junto con otros tokens. La capacitación se ha realizado en varios conjuntos de datos a gran escala de código abierto. Está entrenado en una infraestructura robusta que utiliza 256 GPU NVIDIA A100 de 40 GB y optimizado utilizando AdamW con precisión bfloat16. El modelo opera bajo paralelismo 2D con ZeRO-1, incorporando características innovadoras como atención flash y núcleos de incrustación rotativa de FlashAttention-2. Los experimentos con 6 modelos existentes con varios lenguajes de programación muestran la eficiencia del modelo al lograr alrededor del 30% de precisión en lenguajes: CPP, Rust, Python, Java, PHP y Javascript. Otros modelos mostraron un rendimiento ligeramente mejor en solo uno de los idiomas o en un modelo extremadamente grande con 2,5 veces más que el Stable-Code-3B.

En conclusión, el modelo stable-code-3b representa una herramienta poderosa para los desarrolladores que buscan una base fundamental en aplicaciones de procesamiento de lenguaje natural. Sin embargo, es fundamental tener en cuenta que el modelo tiene limitaciones y posibles sesgos. Como modelo base, requiere una evaluación y un ajuste cuidadosos para lograr un rendimiento seguro y confiable en aplicaciones posteriores específicas. Los desarrolladores deben ser conscientes de posibles comportamientos indeseables y se recomienda evaluar y corregir minuciosamente estos aspectos antes de la implementación para garantizar que el modelo se alinee con los estándares éticos y de seguridad.


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.