El rendimiento de SWE-Bench alcanza el 50.8% sin uso de la herramienta: un caso para agentes de contexto de estado monolítico
Los avances recientes en los agentes de LM han mostrado un potencial prometedor para automatizar las intrincadas tareas del mundo real. Estos agentes generalmente operan proponiendo y ejecutando acciones a…