StarCoder2 y The Stack v2: pioneros en el futuro de la generación de código con modelos de lenguaje grandes

La llegada de los modelos de lenguaje grande para código (Code LLM) ha transformado significativamente el panorama del desarrollo de software, ofreciendo capacidades sin precedentes en la generación de código, corrección de errores e incluso la automatización de tareas de codificación de rutina. Entre las vanguardias de esta evolución tecnológica se encuentra el proyecto BigCode, de un gran grupo de investigadores de más de 30 universidades e instituciones de primer nivel, que presentó StarCoder2, un modelo innovador diseñado para ampliar los límites de la generación de código a través de técnicas avanzadas de aprendizaje automático.

StarCoder2 es un modelo avanzado entrenado en un conjunto de datos diverso y expansivo, que incluye repositorios de Software Heritage y solicitudes de extracción de GitHub. Ha ampliado su conjunto de formación para que sea cuatro veces mayor que el de su predecesor. StarCoder2 está disponible en varios tamaños (3B, 7B, 15B), y cada modelo demuestra un rendimiento excepcional en las pruebas comparativas de Code LLM. La variante 15B ha superado a sus pares en rendimiento, lo que destaca el éxito del proyecto en la mejora de las capacidades de generación de código.

El proyecto BigCode enfatiza el desarrollo ético y la transparencia de los Code LLM. Garantiza apertura y accesibilidad al publicar los pesos del modelo de StarCoder2 bajo una licencia OpenRAIL y mejorar la transparencia de los datos al publicar ID persistentes de Software Heritage para su conjunto de datos de entrenamiento. Este enfoque no sólo establece un nuevo estándar de rendimiento en la generación de código, sino que también fomenta una cultura de colaboración e innovación dentro de la comunidad, lo que permite mayores avances en el campo.

En el corazón del éxito de StarCoder2 se encuentra The Stack v2, un conjunto de datos meticulosamente seleccionado que es asombrosamente diez veces más grande que su predecesor. Esta expansión cuantitativa y cualitativa incorpora varias fuentes de datos, como repositorios de Software Heritage, solicitudes de extracción de GitHub, cuadernos de Kaggle y una extensa documentación de código. La gran diversidad y el volumen de este conjunto de datos permiten a StarCoder2 comprender y generar código con una sofisticación sin precedentes en varios lenguajes de programación.

Los modelos de formación como StarCoder2 implican un proceso complejo y multifacético. El equipo se embarcó en un extenso viaje de limpieza, filtrado y submuestreo de datos para refinar el enorme conjunto de datos sin procesar de 67,5 TB a un conjunto de entrenamiento de 3 TB más manejable y enfocado. Este proceso fue crucial para mejorar el rendimiento del modelo, garantizando que aprendiera de ejemplos de código relevantes y de alta calidad. Los investigadores desarrollaron modelos con diferentes capacidades, parámetros 3B, 7B y 15B, para explorar el impacto del tamaño del modelo en el rendimiento.

En evaluaciones integrales frente a otros puntos de referencia de Code LLM, los modelos StarCoder2 superaron consistentemente a sus contrapartes, particularmente en tareas que requieren completar, editar y razonar el código. El modelo 3B más pequeño sobresalió en la mayoría de los puntos de referencia, rivalizando con modelos de tamaño similar. Mientras tanto, la variante 15B más grande no solo superó a los modelos de tamaño comparable, sino que también mostró un rendimiento competitivo o superior frente a modelos aún más sustanciales, lo que marcó un logro significativo en el campo de los LLM de Código.

El compromiso del proyecto BigCode con la apertura y la transparencia se refleja en su decisión de publicar los pesos del modelo StarCoder2 bajo una licencia OpenRAIL y revelar las fuentes de sus datos de entrenamiento mediante la publicación de identificadores persistentes de Software Heritage (SWHID). Este gesto de buena voluntad hacia la comunidad científica tiene como objetivo fomentar la colaboración y la innovación, permitiendo a otros desarrollar su trabajo y avanzar aún más en el campo de la generación de código.

En conclusión, StarCoder2, un LLM de generación de código de próxima generación, aprovecha The Stack v2, un enorme conjunto de datos de entrenamiento de 3 TB derivado del archivo Software Heritage de 67,5 TB, ahora diez veces el tamaño de su predecesor. Con modelos con parámetros 3B, 7B y 15B, StarCoder2 sobresale en finalización, edición y razonamiento de código, estableciendo nuevos puntos de referencia para sus categorías de tamaño. Con un compromiso con la transparencia, el proyecto publica pesos de modelos y detalles de datos de capacitación para fomentar la confianza y fomentar más innovaciones en el campo.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 38k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas

También te puede gustar nuestro Cursos GRATUITOS de IA….

Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

StarCoder2 y The Stack v2: pioneros en el futuro de la generación de código con modelos de lenguaje grandes

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Sakana AI lanza Sakana Fugu: un modelo de orquestación que enruta tareas a través de un grupo intercambiable de LLM fronterizos

xAI lanza /goal en Grok Build, agregando ejecución autónoma de larga duración con verificación incorporada para tareas de codificación de varios pasos

Creación de pago por inteligencia para agentes de IA: cómo Ampersend utiliza Amazon Bedrock AgentCore Payments

You missed

Sánchez se reúne con el embajador de EE.UU. en España en medio de las tensiones con Trump

El entrenamiento de fuerza está relacionado con la longevidad, según un estudio de 30 años: ScienceAlert

Trump se derrumba cuando los periodistas cuestionan su historia sobre vandalismo en la piscina reflectante

El viaje de SS Rajamouli a Baahubali continúa con The Torchbearer Docuseries en OTT