JUNSA AI ha lanzado Deepswe, un agente de ingeniería de software de última generación y de origen abierto que está capacitado por completo a través del aprendizaje de refuerzo (RL). Construido en la parte superior del modelo de lenguaje QWEN3-32B, DeepSwe logra una precisión del 59% en el punto de referencia verificado por Swebench y el 42.2% pase@1, superando la tabla de clasificación entre los modelos de peso abierto. Este lanzamiento representa un cambio significativo para Together AI, desde tuberías tradicionales previas al pretreriamiento hasta la creación de agentes de lenguaje autónomo que aprenden y mejoran continuamente a través de la retroalimentación del mundo real.
El aprendizaje de refuerzo se encuentra con la generación de código
DeepSwe es el resultado del modelo posterior al modelo QWEN3-32B Foundation utilizando RLLM, el marco de aprendizaje de refuerzo modular de Agentica adaptado para los agentes del idioma. A diferencia de los enfoques convencionales supervisados de ajuste fino, RLLM permite a los agentes adaptarse a los flujos de trabajo del mundo real a través de la experiencia. DeepSwe ha sido capacitado específicamente para resolver tareas complejas de ingeniería de software utilizando un bucle basado en retroalimentación en lugar de conjuntos de datos estáticos.
La tubería de capacitación incorpora el conjunto de datos R2Egym de Agentica, un punto de referencia de ingeniería de software diseñado para el desarrollo de agentes de estilo RL. El marco se centra en los modelos de lenguaje de capacitación con objetivos orientados a la acción, como arreglar errores, completar funciones y editar código, en lugar de simplemente predecir las distribuciones de próxima token. Esto se alinea más estrechamente con la forma en que los ingenieros humanos iteran y aprenden de los resultados.
Puntos de referencia y capacidades de rendimiento
En Swebench, verificado, el punto de referencia más riguroso para los agentes de ingeniería de software, DeepSwe obtiene un 59% con la escalado de tiempo de prueba. Esto supera significativamente a los modelos anteriores de peso abierto. En las evaluaciones Pass@1, que miden la probabilidad de que el agente resuelva un problema correctamente en el primer intento, DePswe alcanza un impresionante 42.2%.
Estos resultados subrayan el poder de la capacitación basada en RL para mejorar el comportamiento de los agentes, particularmente en dominios que requieren razonamiento iterativo y resultados precisos, como la síntesis de código. La arquitectura del modelo, heredada de QWEN3-32B, le permite escalar de manera efectiva y permanecer adecuada para aplicaciones del mundo real.
Código abierto y reproducibilidad en su núcleo
Una de las características destacadas de este lanzamiento es su transparencia completa. Juntos, AI y Agentica han de origen abierto no solo el modelo profundo, sino también la receta de entrenamiento completa, incluido el marco RLLM, el conjunto de datos R2EGYM y los scripts de configuración de capacitación. Esto promueve la reproducibilidad e invita a las comunidades más amplias de investigación y desarrolladores a extender o desarrollar profundos sin restricciones.
Los desarrolladores pueden acceder a Deepswe y RLLM a través de lo siguiente:
Desde razones de idiomas hasta agentes del idioma
Deepswe marca un cambio filosófico y práctico: desde la construcción de modelos que razonan sobre el lenguaje hasta la construcción de agentes que aprenden a través de la interacción. Los LLM tradicionales han mostrado fuertes capacidades de razonamiento, pero a menudo carecen de la capacidad de adaptarse a la retroalimentación o mejorar con el uso. El aprendizaje de refuerzo permite que estos modelos no solo funcionen bien en el lanzamiento, sino que mejoren con el tiempo, adaptándose a nuevas distribuciones y dominios de problemas.
Este enfoque también abre la puerta para la implementación local. Debido a que DeepSwe es completamente de código abierto y modular, se puede extender y volver a capacitar para casos de uso específicos de la organización. Los desarrolladores e investigadores pueden construir sus propios agentes además de Deepswe utilizando RLLM para atender diversos dominios, como navegación web, robótica o asistencia de investigación autónoma.
Conclusión
Deepswe es un hito en la evolución de la IA generativa para la ingeniería de software. Al aplicar el aprendizaje de refuerzo a modelos de idiomas grandes como Qwen3-32b y liberar toda la infraestructura de capacitación, juntos IA permite un futuro donde los agentes no solo están petrolados y desplegados, sino que continuamente entrenan y mejoran. Este salto de la comprensión del lenguaje a la agencia orientada a la acción tiene implicaciones significativas en la programación, la automatización y el diseño inteligente del sistema.
Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.