Introducción: los límites de los sistemas de IA tradicionales
Los sistemas de inteligencia artificial convencionales están limitados por sus arquitecturas estáticas. Estos modelos operan dentro de los marcos fijos de ingeniería humana y no pueden mejorar de forma autónoma después del despliegue. En contraste, el progreso científico humano es iterativo y acumulativo: cada avance se basa en ideas previas. Inspirándose en este modelo de refinamiento continuo, los investigadores de IA ahora están explorando técnicas evolutivas y autorreflexivas que permiten a las máquinas mejorar a través de la modificación del código y la retroalimentación del rendimiento.
Máquina Darwin Gödel: un marco práctico para la IA de autoinforme
Investigadores de la IA Sakana, la Universidad de Columbia Británica y el Vector Institute han introducido el Máquina Darwin Gödel (DGM)un nuevo sistema de IA auto modificando diseñado para evolucionar de forma autónoma. A diferencia de las construcciones teóricas como la máquina Gödel, que se basan en modificaciones comprobables, DGM abarca el aprendizaje empírico. El sistema evoluciona editando continuamente su propio código, guiado por métricas de rendimiento de puntos de referencia de codificación del mundo real, como SWE Bench y Polyglot.
Modelos de base y diseño evolutivo de IA
Para impulsar este bucle de superación personal, DGM usa Frozen modelos de base que facilitan la ejecución y generación del código. Comienza con un agente de codificación base capaz de autoeditar, luego lo modifica iterativamente para producir nuevas variantes de agente. Estas variantes se evalúan y se retienen en un archivo si demuestran una compilación exitosa y superación personal. Este proceso de búsqueda abierto imita la evolución biológica, preservando la diversidad y permitiendo que los diseños previamente subóptimos se conviertan en la base de futuros avances.
Resultados de referencia: Validación del progreso en Swe-Bench y Polyglot
DGM se probó en dos puntos de referencia de codificación bien conocidos:
- SWE Bench: El rendimiento mejoró de 20.0% a 50.0%
- Polígloto: La precisión aumentó de 14.2% a 30.7%
Estos resultados destacan la capacidad de DGM para evolucionar su arquitectura y estrategias de razonamiento sin intervención humana. El estudio también comparó DGM con variantes simplificadas que carecían de capacidades de auto-modificación o exploración, lo que confirma que ambos elementos son críticos para mejoras sostenidas de rendimiento. En particular, DGM incluso superó a los sistemas ajustados a mano como el aider en múltiples escenarios.
Importancia técnica y limitaciones
DGM representa una reinterpretación práctica de la máquina Gödel al pasar de la prueba lógica a la iteración basada en la evidencia. Trata la mejora de la IA como un problema de búsqueda: explorar las arquitecturas de los agentes a través de prueba y error. Si bien sigue siendo computacionalmente intensivo y aún no está a la par con los sistemas cerrados ajustados por expertos, el marco ofrece una ruta escalable hacia la evolución de IA abierta en ingeniería de software y más allá.
Conclusión: hacia las arquitecturas generales de IA que evolucionan
La máquina Darwin Gödel muestra que los sistemas de IA pueden refinarse de manera autónoma a través de un ciclo de modificación, evaluación y selección del código. Al integrar modelos de base, puntos de referencia del mundo real y principios de búsqueda evolutivos, DGM demuestra ganancias de rendimiento significativas y establece las bases para una IA más adaptable. Si bien las aplicaciones actuales se limitan a la generación de códigos, las versiones futuras podrían expandirse a dominios más amplios, moviéndose más cerca de los sistemas de IA de uso automático y de uso automático alineados con los objetivos humanos.
🌍 tl; Dr
- 🌱 DGM es un marco de IA que proporciona autosuficiencia Eso evoluciona a los agentes de codificación a través de modificaciones de código y validación de referencia.
- 🧠 Mejora el rendimiento usando modelos de base congelada y técnicas inspiradas en la evolución.
- 📈 supera las líneas de base tradicionales en el banco SWE (50%) y el políglot (30.7%).
Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.