Los investigadores de Bytedance introducen la codificadora de semillas: un código centrado en el modelo LLM entrenado en 6 billones de tokens

Reframing Code LLM Capacitación a través de tuberías de datos automatizadas escalables

Los datos del código juegan un papel clave en la capacitación de LLM, beneficiando no solo a las tareas de codificación sino también a las habilidades de razonamiento más amplias. Si bien muchos modelos de código abierto se basan en el filtrado manual y las reglas hechas de expertos para curar conjuntos de datos de código, estos enfoques requieren mucho tiempo, sesgados y difíciles de escalar en todos los idiomas. Modelos patentados como Claude 3.7 y OpenAI O3 Excel en tareas de codificación, pero no comparten detalles sobre sus datos. Incluso los modelos de código abierto como Deepseek y Qwen2.5 aún dependen en gran medida de los filtros diseñados por humanos. Sin embargo, esta dependencia limita el progreso, haciéndose eco de “la amarga lección” de que los avances reales provienen de métodos escalables basados ​​en datos, no heurísticas artesanales.

La tubería del modelo de modelo de semilla minimiza

Los investigadores de Bytedance introducen semillas codificadas, una familia de LLM de código abierto 8B que incluyen modelos de base, instrucción y razonamiento, diseñados para reducir la participación humana en la curación de datos de código. En lugar de confiar en las reglas manuales, su tubería centrada en el modelo utiliza LLM para obtener y filtrar datos de código a gran escala de fuentes como GitHub y sitios web relacionados con el código, lo que resulta en un conjunto de datos de 6 billones de datos. El modelo de instrucción está ajustado utilizando datos sintéticos y optimización de preferencias, mientras que el modelo de razonamiento mejora la lógica de código de múltiples pasos a través del aprendizaje de refuerzo de cadena larga de pensamiento. La codificadora de semillas logra el mejor rendimiento para su tamaño, a menudo superando los modelos más grandes, y se comparte abiertamente para alentar más investigaciones y desarrollo.

Corpus token de 6 billones de 6 billones construidos con filtros de calidad LLM en GitHub y datos web

La codificadora de semillas está entrenada utilizando un enfoque impulsado por el modelo que minimiza la intervención manual. El corpus preventivo comprende aproximadamente 6 billones de tokens, procedentes de varias fuentes, incluidos el código GitHub, los historiales de confirmación y los datos web relacionados con el código. Inicialmente, el filtrado básico elimina los archivos con problemas de sintaxis o contenido inapropiado. Luego, se utilizan modelos de idiomas grandes para evaluar y calificar el código restante, asegurando datos de alta calidad sin depender de las reglas hechas a mano. El pretratenamiento ocurre en dos etapas: primero, con código central y datos web, y más tarde, con estructuras más complejas, como repositorios completos y tareas de contexto largo, como el relleno-in-the-middle, para mejorar las capacidades de codificación del modelo.

Post-entrenamiento a través de ajuste de instrucciones y longcot habilita la comprensión del código de varios pasos

Después de la entrega previa, la codificadora de semillas se somete a un refinamiento adicional a través de dos etapas posteriores a la capacitación. Primero, el modelo de instrucción está capacitado utilizando ajustes finos supervisados ​​en un conjunto diverso de datos de instrucción sintética generados y filtrados por LLMS, lo que lo ayuda a comprender mejor y seguir las indicaciones humanas. Luego, su rendimiento se mejora utilizando la optimización de preferencia directa (DPO), que alinea las respuestas del modelo más estrechamente con las preferencias humanas. Para tareas de razonamiento complejas, el modelo de razonamiento mejora utilizando el aprendizaje de refuerzo LongCot, lo que fortalece su capacidad para manejar desafíos de codificación de varios pasos. Estos pasos aumentan significativamente el rendimiento del codificador de semillas en varias tareas de generación de código y razonamiento.

La codificadora de semillas sobresale en la generación de códigos, edición y puntos de referencia de razonamiento de varios pasos

La evaluación revela que los tres modelos de codificadores de semillas, la base, el instrucciones y el razonamiento, funcionan excepcionalmente bien en una gama de tareas de codificación. El modelo base supera a otros modelos de código abierto de tamaño similar en las tareas de generación de código, logrando puntajes fuertes en puntos de referencia como Humaneval y Multipl-E. El modelo de instrucción sobresale en tareas que requieren edición de código y seguimiento de instrucciones, liderando evaluaciones como Codeeditorbench y FullStack. El modelo de razonamiento, entrenado con técnicas de cadena larga de pensamiento, demuestra excelentes habilidades de resolución de problemas de varios pasos, particularmente en puntos de referencia desafiantes como LivecodeBench y CodeForces, incluso superando modelos que tienen un tamaño varias veces más grande.

En conclusión, Seed-coder es una familia de modelos de lenguaje de código abierto eficientes y de alto rendimiento diseñados específicamente para tareas de codificación. Estos modelos se destacan dependiendo en gran medida de los LLM en lugar de los humanos para filtrar y seleccionar datos de entrenamiento, reduciendo significativamente el esfuerzo manual. A pesar de ser entrenado en menos tokens en comparación con algunos modelos más grandes, las codificador de semillas exhiben un rendimiento excepcional en tareas como la generación de código, la finalización, la edición y el razonamiento. Sin embargo, sus habilidades en la comprensión general del lenguaje aún son limitadas debido a la ausencia de datos web amplios y contenido matemático. Las actualizaciones futuras tienen como objetivo expandir la familia modelo y mejorar sus capacidades en diferentes tamaños de modelo.


Mira el Papel, Serie de modelos, Página de Github y Página del proyecto. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.