Mistral AI lanza Leanstral 1.5: un modelo de agente de código Apache-2.0 Lean 4 que resuelve 587 de 672 problemas de PutnamBench

Hoy, Mistral AI lanzó Leanstral 1.5. Es un modelo de agente de código creado para Lean 4. La versión tiene como objetivo la demostración automatizada de teoremas y la ingeniería de pruebas. Los pesos están abiertos bajo Apache 2.0. Ya está disponible un punto final API gratuito, leanstral-1-5.

Leanstral 1.5 actualiza el modelo anterior Leanstral-2603. Pertenece a la familia Mistral Small 4.

¿Qué es Leanstral 1.5?

Leanstral 1.5 es un modelo de agente de código para Lean 4, un asistente de pruebas. Un asistente de pruebas comprueba mecánicamente cada paso lógico. Lean 4 puede expresar objetos como espacios perfectos y propiedades de fragmentos de Rust.

La arquitectura es una mezcla de expertos, o MoE. Un MoE enruta cada token a algunas subredes especializadas. Esto mantiene el cálculo bajo mientras que la capacidad total sigue siendo grande. Leanstral utiliza 128 expertos, con 4 activos por token.

El tamaño total es de 119 mil millones de parámetros, con 6,5 mil millones activados por token. La longitud del contexto es de 256k tokens. La entrada es multimodal y acepta texto e imagen. La salida es sólo texto.

Cómo entrenó Mistral Leanstral 1.5

El entrenamiento se desarrolla en tres etapas. Se trata de capacitación intermedia, ajuste fino supervisado y luego aprendizaje de refuerzo con CISPO. Dos entornos de aprendizaje por refuerzo dieron forma al comportamiento agente del modelo.

En el entorno multivuelta, el modelo recibe un enunciado de teorema. Debe probarlo o refutarlo. Envía una prueba y luego lee los comentarios del compilador Lean. Refina los intentos hasta que tiene éxito o agota su presupuesto.

En el entorno del agente de código, Leanstral trabaja dentro de un sistema de archivos sin formato. Edita archivos, ejecuta comandos bash y utiliza el servidor de lenguaje Lean. Ese servidor expone objetivos, errores e información de tipo en tiempo real.

Esto le permite completar pruebas parciales, crear lemas auxiliares y persistir mediante la compactación del contexto. La compactación comprime el contexto anterior, por lo que las tareas largas aún se ajustan a la ventana. La corrección se verifica mediante la bifurcación SafeVerify de Mistral contra los teoremas objetivo.

Puntos de referencia y rendimiento

El equipo de Mistral informa que Leanstral 1.5 satura miniF2F. Alcanza el 100% tanto en el conjunto de validación como en el de prueba. Resuelve 587 de 672 problemas de PutnamBench.

El modelo establece un nuevo estado del arte en los puntos de referencia de álgebra FATE-H y FATE-X. Mistral enumera el 87% en FATE-H y el 34% en FATE-X. En FLTEval, pass@1 aumenta de 21,9 a 28,9. Pass@8 sube de 31,9 a 43,2.

FLTEval se construye a partir de solicitudes de extracción reales al repositorio del último teorema de Fermat. En él, Leanstral supera el 39,6 del Opus 4.6 a una séptima parte del coste. También amplía de tres a diez veces su ventaja sobre los modelos de código abierto. Pass@8 significa que se permiten ocho intentos por problema.

BenchmarkLeanstral 1.5DetailminiF2F (val + test)100%Saturado, según MistralPutnamBench587 / 672~$4 por problemaFATE-H87%Nuevo estado del arteFATE-X34%Nuevo estado del arteFLTEval pass@128.9En comparación con 21.9FLTEval pass@843.2Beats Opus 4.6’s 39,6

En PutnamBench, Leanstral supera a Seed-Prover 1.5 por 7 puntos. Lo hace por alrededor de $4 por problema. Mistral estima que el valor alto de Seed-Prover es cercano a los $300 o más por problema.

Esa configuración tiene un presupuesto de 10 días H20 por problema. Mistral también se compara con Goedel-Architect y AxProverBase. Señala que Aleph Prover cuesta aproximadamente entre 54 y 68 dólares por problema.

El escalado en el momento de la prueba es el comportamiento definitorio del modelo. Aumentar el presupuesto de tokens por intento eleva PutnamBench Pass@8. El equipo de Mistral informa 44 resueltos a 50k, 244 a 200k, 493 a 1M y 587 a 4M. El explorador interactivo a continuación le permite recorrer esa misma curva.