ServiceNow AI Research Lab ha lanzado Apriel-1.5-15B-Pensador, un modelo de razonamiento multimodal de peso abierto de 15 mil millones de parámetros entrenado con una receta de entrenamiento medio centrado en datos, previa al pre-capitaneo seguido de un ajuste fino supervisado, sin embargo de aprendizaje de refuerzo o optimización de preferencia. El modelo alcanza una puntuación de índice de inteligencia de análisis artificial de 52 con 8x ahorro de costos en comparación con SOTA. El punto de control se envía bajo una licencia del MIT en la cara abrazada.
Entonces, ¿qué hay de nuevo para mí?
Puntuación compuesta de nivel fronterizo a pequeña escala. El modelo informa el índice de inteligencia de análisis artificial (AAI) = 52, que coincide con Deepseek-R1-0528 en esa métrica combinada mientras es dramáticamente más pequeño. AAI agrega 10 evaluaciones de terceros (MMLU-Pro, GPQA Diamond, último examen de la humanidad, LivecodeBench, Scicode, AIME 2025, Ifbench, AA-LCR, Terminal-Bench Hard, τ²-Bench Telecom). Implementabilidad de un solo GPU. La tarjeta modelo establece que el punto de control 15B “se ajusta a una sola GPU”, dirigida a las implementaciones locales y obtenidas de aire con presupuestos de memoria y latencia fijos. Pesos abiertos y tubería reproducible. Los pesos, la receta de capacitación y el protocolo de evaluación son públicos para la verificación independiente.
¡De acuerdo! Lo tengo, pero ¿cuál es su mecanismo de entrenamiento?
Base y compensación. APRIEL-1.5-15B-Pensador comienza desde la pila PIXTRAL-12B-BASE-BASE-2409 de Mistral. El equipo de investigación aplica una ampliación de profundidad, aumentando las capas del decodificador de 40 → 48, luego de la realineación de la red de proyección para alinear el codificador de visión con el decodificador ampliado. Esto evita el pretratamiento desde cero mientras preserva la implementabilidad de una sola GPU.
CPT (Pretratenamiento continuo). Dos etapas: (1) Texto mixto+datos de imagen para construir razonamiento fundamental y comprensión del documento/diagrama; (2) Tareas visuales sintéticas dirigidas (reconstrucción, coincidencia, detección, contabilidad) para agudizar el razonamiento espacial y compositivo. Las longitudes de secuencia se extienden a tokens 32k y 16k respectivamente, con la colocación de pérdidas selectivas en los tokens de respuesta para muestras formatadas en instrucción.
🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial
SFT (ajuste de fino supervisado). Datos de instrucción de alta calidad y traza de razonamiento para matemáticas, codificación, ciencias, uso de herramientas e instrucción a continuación; Dos ejecuciones SFT adicionales (subconjunto estratificado; contexto más largo) se figuran con peso para formar el punto de control final. No RL (aprendizaje de refuerzo) o RLAIF (aprendizaje de refuerzo de la retroalimentación de IA).
Nota de datos. ~ 25% de la mezcla de texto de supresión de profundidad se deriva de la colección Nemotron de Nvidia.
¡Oh, guau! ¿Cuéntame sobre sus resultados entonces?
Benchmarks de texto clave (pase@1 / precisión).
AIME 2025 (American Invitational Mathematics Examination 2025): 87.5–88% GPQA Diamond (Respuesta de preguntas a prueba de Google a nivel de posgrado, división de diamantes): ≈71% ifbench (interrogatorio de referencia de instrucción): ~ 62 τ²-bisenco (telecomunicaciones cuadrado) telecom
Utilizando VlMevalkit para la reproducibilidad, APRIEL obtiene una puntuación competitiva a través de MMMU / MMMU-Pro (comprensión multimodal multidisciplina masiva), LogicVista, MathVision, MathVista, Mathverse, MMSTAR, Charxiv, AI2D, Blink, con resultados fuertes en documentos / diagramas e texto Math Imagery.
Resumimos todo
Apriel-1.5-15b-pensador demuestra que el entrenamiento medio cuidadoso (pretratrenamiento continuo + ajuste fino supervisado, sin aprendizaje de refuerzo) puede ofrecer un 52 en el índice de inteligencia de análisis artificial (AAI) mientras permanece desplegable en una sola unidad de procesamiento de gráficos. Los puntajes de nivel de tarea informados (por ejemplo, AIME 2025 ≈88, GPQA Diamond ≈71, Ifbench ≈62, Tau-cuadrado Telecom ≈68) se alinean con la tarjeta modelo y colocan el punto de control de 15 mil millones de parámetros en la banda más rentable de los razonadores actuales de los lances abiertos. Para las empresas, esa combinación (pesos abiertos, receta reproducible y latencia de una sola GPU) hace que Apriel sea una línea de base práctica para evaluar antes de considerar los sistemas cerrados más grandes.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.
🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial