El mundo del desarrollo de software ha visto una explosión en el uso de agentes de IA en los últimos años, que prometen mejorar la productividad, automatizar tareas complejas y facilitar la vida de los desarrolladores. Sin embargo, un problema que sigue prevaleciendo es la brecha significativa entre estos prometedores agentes de IA y su capacidad para abordar problemas del mundo real de manera efectiva. La mayoría de los agentes de IA luchan por comprender la complejidad y los matices contextuales de los desafíos del desarrollo de software, especialmente cuando se trata de resolver problemas reales de GitHub que los desarrolladores enfrentan todos los días. Estos agentes de IA a menudo se quedan cortos y requieren una supervisión exhaustiva o corrección manual por parte de los desarrolladores, lo que frustra su propósito. Abordar este desafío requiere una solución que no solo sea más inteligente sino que sea capaz de mantenerse al día con las demandas dinámicas de la ingeniería de software, un espacio lleno de desafíos únicos y proyectos de rápido movimiento.
All Hands AI Códigos abiertos OpenHands CodeAct 2.1: un nuevo agente de desarrollo de software, el primero en resolver más del 50% de los problemas reales de GitHub en Banco SWEel punto de referencia estándar para evaluar herramientas de ingeniería de software asistidas por IA. OpenHands CodeAct 2.1 representa un importante avance, con una tasa de resolución del 53 % en SWE-Bench y una tasa de éxito del 41,7 % en SWE-Bench Lite. Lo que hace que OpenHands CodeAct 2.1 sea particularmente revolucionario es que ha ido más allá de la experimentación en entornos controlados y ahora está teniendo un impacto sustancial en proyectos reales al resolver problemas reales de GitHub de forma autónoma. A diferencia de otras herramientas que están demasiado cerradas para contribuir o demasiado específicas para ser útiles para la comunidad en general, OpenHands es un agente de código abierto que los desarrolladores pueden usar, mejorar y adaptar libremente. Con la combinación perfecta de apertura y competitividad, se ha convertido en la mejor opción para los desarrolladores que buscan una solución de IA eficaz.
Las mejoras de rendimiento de OpenHands CodeAct 2.1 se basan principalmente en tres actualizaciones importantes. Primero, cambió al nuevo modelo Claude-3.5 de Anthropic, que mejora significativamente la comprensión del lenguaje natural, permitiendo a CodeAct interpretar mejor los problemas planteados por los desarrolladores. En segundo lugar, las acciones del agente se han modificado para utilizar llamadas a funciones, lo que aporta más precisión en la ejecución de tareas. Esto garantiza que el agente pueda llamar piezas de código específicas sin malas interpretaciones, abordando de manera efectiva los problemas de los desarrolladores con mayor precisión. Por último, los desarrolladores detrás de CodeAct 2.1 realizaron mejoras significativas con respecto al recorrido de directorios, reduciendo los casos en que el agente se atasca en tareas repetitivas o circulares, un problema común que afectó a iteraciones anteriores. Al perfeccionar las capacidades del agente para navegar por directorios de manera inteligente, los problemas más grandes y complicados se resuelven sin problemas y la eficiencia aumenta notablemente.
No se puede subestimar la importancia de estas actualizaciones. Tener una tasa de resolución del 53 % en SWE-Bench significa que más de la mitad de los problemas en este punto de referencia se resolvieron sin ninguna intervención humana. Teniendo en cuenta que SWE-Bench está diseñado específicamente para ser representativo de los problemas de GitHub del mundo real que enfrentan los desarrolladores de software, este hito demuestra que OpenHands CodeAct 2.1 puede impactar directamente los flujos de trabajo de ingeniería de software al resolver una cantidad sustancial de problemas de forma autónoma. En el ámbito más amplio de la asistencia para el desarrollo automatizado, esto es importante porque ahorra tiempo a los desarrolladores y les permite centrarse en desafíos de nivel superior en lugar de atascarse en la tediosa resolución de problemas. Además, la naturaleza de código abierto de OpenHands invita a los desarrolladores de todo el mundo a contribuir y mejorar aún más el agente, una característica que la comunidad de desarrollo tiene en alta estima. Los datos de SWE-Bench Lite, donde OpenHands CodeAct 2.1 logró una tasa de resolución del 41,7%, también respaldan su versatilidad y capacidad para manejar problemas menos complejos, que pueden ser igualmente perturbadores si no se controlan en un proceso de desarrollo.
En conclusión, OpenHands CodeAct 2.1 es un gran avance en el desarrollo de software impulsado por IA, y nos acerca un paso más a asistentes de codificación totalmente autónomos que realmente mejoran la productividad. Su capacidad para resolver más del 50 % de los problemas reales de GitHub en SWE-Bench demuestra no solo el avance tecnológico sino también la usabilidad práctica en la que los desarrolladores pueden confiar en el día a día. La naturaleza de código abierto de OpenHands garantiza que siga siendo un esfuerzo impulsado por la comunidad con la promesa de mejoras continuas. Ya sea que los desarrolladores quieran ejecutar OpenHands localmente, integrarlo a través de acciones de GitHub o registrarse para la versión en línea que se lanzará próximamente, ofrece flexibilidad y una invitación abierta a todos los desarrolladores para unirse a su evolución. Con mejoras importantes en las capacidades del agente, como la adopción de Claude-3.5 de Anthropic, la implementación de llamadas a funciones y la mejora del recorrido de directorios, OpenHands CodeAct 2.1 está estableciendo el estándar de lo que debería ser un agente de desarrollo de IA: eficaz, accesible y en continua evolución.
Mira el Detalles y GitHub aquí. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.