Sakana AI ha lanzado Shinkaevolve, un marco de código abierto que utiliza modelos de idiomas grandes (LLM) como operadores de mutación en un bucle evolutivo para evolucionar programas para problemas científicos e de ingeniería, mientras que corta drásticamente el número de evaluaciones necesarias para alcanzar fuertes soluciones. En el punto de referencia canónico de empacación en círculo (n = 26 en un cuadrado unitario), Shinkaevolve informa una nueva configuración de SOTA utilizando ~ 150 evaluaciones del programa, donde los sistemas anteriores típicamente quemaban miles. El proyecto se envía bajo Apache-2.0, con un informe de investigación y un código público.
¿Qué problema está resolviendo realmente?
La mayoría de los sistemas de evolución de código “agente” exploran por la fuerza bruta: mutan el código, lo ejecutan, lo califican y repiten, contienen enormes presupuestos de muestreo. ShinkaEvolve objetivos que desperdician explícitamente con tres componentes que interactúan:
Muestreo de padres adaptativo para equilibrar la exploración/explotación. Los padres se basan en “islas” a través de políticas de aptitud y novedades (leyes de poder o ponderadas por rendimiento y recuentos de descendientes) en lugar de siempre escalar lo mejor actual. Filtrado de rechazo basado en la novedad para evitar reevaluar los casi duplicados. Los segmentos de código mutables están integrados; Si la similitud cosena excede un umbral, un LLM secundario actúa como un “juez novedoso” antes de la ejecución. El conjunto de LLM basado en Bandit para que el sistema aprenda qué modelo (por ejemplo, GPT/Gemini/Claude/Deepseek Families) está produciendo los mayores saltos de aptitud relativa y ruta mutaciones futuras en consecuencia (actualización al estilo UCB1 sobre la mejora sobre los padres/línea de base).
¿El reclamo de eficiencia de muestra se mantiene más allá de los problemas de juguetes?
El equipo de investigación evalúa cuatro dominios distintos y muestra ganancias consistentes con presupuestos pequeños:
Embalaje en círculo (n = 26): alcanza una configuración mejorada en aproximadamente 150 evaluaciones; El equipo de investigación también valida con una verificación de restricción exacta más estricta. Razonamiento de Aime Math (SET 2024): evoluciona los andamios de los agentes que rastrean una frontera de Pareto (precisión versus presupuesto de LLM-llame), superan las líneas de base construidas a mano bajo presupuestos de consulta limitados / frontera de Pareto de precisión frente a las llamadas y transfiriendo a otros años de Aime y LLM. Programación competitiva (Ale-Bench Lite): a partir de las soluciones de Ale-Agent, Shinkaevolve ofrece ~ 2.3% de mejora media en 10 tareas y empuja la solución de una tarea de 5º → 2º en un contrafactual de la tabla de clasificación Atcoder. Entrenamiento LLM (mezcla de expertos): evoluciona una nueva pérdida de equilibrio de carga que mejora la perplejidad y la precisión aguas abajo en múltiples fortalezas de regularización frente a la LBL de lotes globales ampliamente utilizados.
¿Cómo se ve el bucle evolutivo en la práctica?
Shinkaevolve mantiene un archivo de programas evaluados con estado físico, métricas públicas y comentarios textuales. Para cada generación: muestree una isla y padres; construir un contexto de mutación con programas de “inspiración” top-k y aleatorios; Luego proponga las ediciones a través de tres operadores (ediciones DIFF, reescrituras completas y crossovers guiados por LLM, mientras protegen regiones de código inmutable con marcadores explícitos. Los candidatos ejecutados actualizan tanto el archivo como las estadísticas de bandidos que dirigen la posterior selección LLM/modelo. El sistema produce periódicamente un meta-scratchpad que resume estrategias exitosas recientemente; Esos resúmenes se devuelven a las indicaciones para acelerar las generaciones posteriores.
¿Cuáles son los resultados concretos?
Embalaje del círculo: inicialización estructurada combinada (por ejemplo, patrones de ángulo dorado), búsqueda híbrida global-local (recocido simulado + SLSQP) y mecanismos de escape (recalentamiento de temperatura, rotaciones de anillo) descubiertos por el sistema, no codificados a mano a priori. Andamios de AIME: conjunto experto de tres etapas (generación → revisión crítica de pares → síntesis) que alcanza el punto óptimo de precisión/costo a ~ 7 llamadas mientras conserva la robustez cuando se intercambia a diferentes backends de LLM. Ale-Bench: gana de ingeniería específica (por ejemplo, almacenamiento de estadísticas de subárbol de tree KD, “se mueve el borde dirigido” hacia elementos mal clasificados) que empujan los puntajes sin reescrituras al por mayor. Pérdida de MOE: agrega una multa de uso subterráneo modulado por la entropía al objetivo de lotes globales; Reduce empíricamente la fusión de la fallas y mejora la perplejidad/puntos de referencia como concentrados de enrutamiento de la capa.
¿Cómo se compara esto con los sistemas Alfaevolucionar y relacionados?
Alphaevolve demostró fuertes resultados de código cerrado pero en recuentos de evaluación más altos. Shinkaevolve reproduce y supera el resultado de empacación de círculo con órdenes de magnitud menos muestras y libera todos los componentes de código abierto. El equipo de investigación también contrasta variantes (conjunto de un solo modelo versus conjunto fijo versus conjunto de bandidos) y selección de padres ablacos y filtrado de novedad, que muestra cada uno contribuye a la eficiencia observada.
Resumen
Shinkaevolve es un marco Apache-2.0 para la evolución del programa impulsado por LLM que reduce las evaluaciones de miles a cientos al combinar la condición física/muestreo de los padres con consumo novedoso, el rechazo de la novedad de incrustación y un conjunto adaptativo de LLM al estilo UCB1. Establece un nuevo empaque SOTA en Circle (~ 150 Evals), encuentra andamios de AIME más fuertes bajo presupuestos de consultas estrictos, mejora las soluciones de Bench ALE (~ 2.3% ganancia media, quinta → 2a en una tarea) y descubre una nueva pérdida de carga de carga de MOE que mejora la perplejidad y la aceleración de la disminución. El código y el informe son públicos.
Preguntas frecuentes – shinkaevolve
1) ¿Qué es Shinkaevolve?
Un marco de código abierto que combina mutaciones de programa impulsadas por LLM con búsqueda evolutiva para automatizar el descubrimiento y optimización de los algoritmos. El código y el informe son públicos.
2) ¿Cómo logra una mayor eficiencia de muestra que los sistemas evolutivos anteriores?
Tres mecanismos: muestreo de padres adaptativo (explorar/explotar el equilibrio), el rechazo basado en la novedad para evitar evaluaciones duplicadas y un selector basado en bandidos que enruta las mutaciones a las LLM más prometedoras.
3) ¿Qué respalda los resultados?
Alcanza el empaque del círculo de última generación con ~ 150 evaluaciones; en AIME-2024 evoluciona los andamios por debajo de un límite de 10 cuartos por problema; Mejora las soluciones de Bench Ale sobre líneas de base fuertes.
4) ¿Dónde puedo ejecutarlo y cuál es la licencia?
El repositorio de GitHub proporciona una webui y ejemplos; Shinkaevolve se libera bajo Apache-2.0.
Consulte los detalles técnicos, el papel y la página GitHub. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.
🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial