TII Abu-Dhabi lanzó Falcon H1R-7B: un nuevo modelo de razonamiento que supera a otros en matemáticas y codificación con solo 7B parámetros y una ventana de contexto de 256k

El Instituto de Innovación Tecnológica (TII) de Abu Dhabi ha lanzado Falcon-H1R-7B, un modelo especializado de razonamiento de parámetros 7B que iguala o supera muchos modelos de razonamiento de 14B a 47B en matemáticas, código y puntos de referencia generales, sin dejar de ser compacto y eficiente. Se basa en la base Falcon H1 7B y está disponible en Hugging Face en la colección Falcon-H1R.

Falcon-H1R-7B es interesante porque combina 3 opciones de diseño en 1 sistema, un transformador híbrido junto con la columna vertebral Mamba2, un contexto muy largo que alcanza 256 000 tokens en implementaciones vLLM estándar y una receta de capacitación que combina razonamiento supervisado de formato largo con aprendizaje reforzado utilizando GRPO.

Transformador híbrido más arquitectura Mamba2 con contexto largo

Falcon-H1R-7B es un modelo de decodificador causal únicamente con una arquitectura híbrida que combina capas Transformer y componentes de espacio de estados Mamba2. Los bloques Transformer brindan un razonamiento estándar basado en la atención, mientras que los bloques Mamba2 brindan un modelado de secuencia de tiempo lineal y una mejor escala de memoria a medida que crece la longitud del contexto. Este diseño apunta a los 3 ejes de eficiencia del razonamiento que describe el equipo: velocidad, eficiencia del token y precisión.

El modelo se ejecuta con un –max-model-len predeterminado de 262144 cuando se sirve a través de vLLM, que corresponde a una práctica ventana de contexto de token de 256k. Esto permite una cadena muy larga de rastros de pensamiento, registros de uso de herramientas de varios pasos y grandes indicaciones de varios documentos en una sola pasada. La columna vertebral híbrida ayuda a controlar el uso de la memoria en estas longitudes de secuencia y mejora el rendimiento en comparación con una línea base Transformer 7B pura en el mismo hardware.

Receta de entrenamiento para tareas de razonamiento.

Falcon H1R 7B utiliza un proceso de formación de 2 etapas:

En la primera etapa, el equipo realiza un arranque en frío y un ajuste fino supervisado en la parte superior de la base Falcon-H1-7B. Los datos SFT (ajuste fino supervisado) combinan rastros de razonamiento largos paso a paso en 3 dominios principales: matemáticas, codificación y ciencia, además de dominios que no son de razonamiento como chat, llamadas de herramientas y seguridad. El filtrado consciente de la dificultad aumenta los problemas más difíciles y reduce los triviales. Los objetivos pueden alcanzar hasta 48.000 tokens, por lo que el modelo ve derivaciones largas y rutas de solución completas durante el entrenamiento.

En la segunda etapa, el punto de control SFT se refina con GRPO, que es un método de optimización de políticas relativas al grupo para el aprendizaje por refuerzo. Las recompensas se otorgan cuando la cadena de razonamiento generada es verificablemente correcta. Para los problemas de matemáticas, el sistema utiliza comprobaciones simbólicas de la respuesta final. Para el código, ejecuta el programa generado contra pruebas unitarias. Esta etapa de RL empuja al modelo a mantener pasos intermedios útiles mientras se mantiene dentro de un presupuesto simbólico.

El resultado es un modelo 7B diseñado específicamente para el razonamiento en cadena de pensamiento, en lugar del chat general.

Puntos de referencia en matemáticas, codificación y razonamiento general

Los puntajes de referencia del Falcon-H1R-7B se agrupan en tareas de matemáticas, código y agentes, y tareas de razonamiento general.

En el grupo de matemáticas, Falcon-H1R-7B alcanza una puntuación total del 73,96%, por delante de Aprilel-1.5-15B con un 69,32% y modelos más grandes como Qwen3-32B y Nemotron-H-47B. Sobre puntos de referencia individuales:

AIME 24, 88,1%, superior a Aprilel-1.5-15B con 86,2% AIME 25, 83,1%, superior a Aprilel-1.5-15B con 80% HMMT 25, 64,9%, por encima de todas las líneas base listadas AMO Bench, 36,3%, en comparación con el 23,3% de DeepSeek-R1-0528 Qwen3-8B

Para cargas de trabajo de código y agentes, el modelo alcanza el 33,95 % como puntuación grupal. En LiveCodeBench v6, Falcon-H1R-7B obtiene una puntuación del 68,6%, que es más alta que Qwen3-32B y otras líneas de base. También obtiene una puntuación del 28,3 % en el punto de referencia de subproblemas de SciCode y del 4,9 % en Terminal Bench Hard, donde ocupa el segundo lugar detrás de Aprilel 1.5-15B pero por delante de varios sistemas 8B y 32B.

https://huggingface.co/blog/tiiuae/falcon-h1r-7b

En términos generales, Falcon-H1R-7B logra un 49,48% como puntuación grupal. Registra un 61,3% en GPQA D, cerca de otros modelos 8B, un 72,1% en MMLU Pro, que es más alto que todos los demás modelos 8B en la tabla anterior, un 11,1% en HLE y un 53,4% en IFBench, donde ocupa el segundo lugar después de Aprilel 1.5 15B.

La conclusión clave es que un modelo 7B puede ubicarse en la misma banda de rendimiento que muchos modelos de razonamiento 14B a 47B, si la arquitectura y el proceso de capacitación están ajustados para las tareas de razonamiento.

Rendimiento de inferencia y escalamiento del tiempo de prueba

El equipo también comparó el rendimiento del Falcon-H1R-7B y la escala del tiempo de prueba en configuraciones de lotes realistas.

Para una entrada de 512 tokens y una salida de 32k tokens, Falcon-H1R-7B alcanza aproximadamente 1000 tokens por segundo por GPU en un tamaño de lote 32 y aproximadamente 1500 tokens por segundo por GPU en un tamaño de lote 64, casi el doble del rendimiento de Qwen3-8B en la misma configuración. Para una entrada de 8k y una salida de 16k, Falcon-H1R-7B alcanza alrededor de 1.800 tokens por segundo por GPU, mientras que Qwen3-8B se mantiene por debajo de 900. El transformador híbrido junto con la arquitectura Mamba es un factor clave en este comportamiento de escalado, porque reduce el costo cuadrático de atención para secuencias largas.

Falcon-H1R-7B también está diseñado para escalar el tiempo de prueba utilizando Deep Think con confianza, conocido como DeepConf. La idea es ejecutar muchas cadenas de pensamiento en paralelo y luego utilizar las puntuaciones de confianza de los siguientes tokens del modelo para filtrar los rastros ruidosos y mantener solo candidatos de alta calidad.

En AIME 24 y AIME 25, Falcon-H1R-7B alcanza una precisión del 96,7% con menos de 100 millones de tokens generados, lo que lo coloca en una frontera de Pareto favorable de precisión versus costo de token en comparación con otros modelos de razonamiento 8B, 14B y 32B. En el subconjunto verificable del analizador de AMO Bench, alcanza una precisión del 35,9% con 217 millones de tokens, nuevamente por delante de los modelos de comparación a escala similar o mayor.

Conclusiones clave

Falcon-H1R-7B es un modelo de razonamiento de parámetros 7B que utiliza un transformador híbrido junto con la arquitectura Mamba2 y admite un contexto de token de 256k para una larga cadena de indicaciones de pensamiento. El modelo se entrena en 2 etapas, ajuste fino supervisado en largas trazas de razonamiento en matemáticas, código y ciencias hasta 48k tokens, seguido de aprendizaje reforzado basado en GRPO con recompensas verificables para matemáticas y código. Falcon-H1R-7B logra un sólido rendimiento en matemáticas, que incluye alrededor del 88,1 % en AIME 24, 83,1 % en AIME 25 y una puntuación agregada de matemáticas del 73,96 %, que es competitivo o mejor que los modelos más grandes de 14B a 47B. En tareas de codificación y agentes, Falcon-H1R-7B obtiene 33,95 % como puntuación de grupo y 68,6 % en LiveCodeBench v6, y también es competitivo en puntos de referencia de razonamiento general como MMLU Pro y GPQA D. El diseño híbrido mejora el rendimiento, alcanzando alrededor de 1000 a 1800 tokens por segundo por GPU en las configuraciones informadas, y el modelo admite la ampliación del tiempo de prueba a través de Deep Think con confianza para Mejore la precisión utilizando múltiples muestras de razonamiento bajo un presupuesto simbólico controlado.

Consulta los detalles técnicos y PESOS DEL MODELO aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Consulte nuestra última versión de ai2025.dev, una plataforma de análisis centrada en 2025 que convierte los lanzamientos de modelos, los puntos de referencia y la actividad del ecosistema en un conjunto de datos estructurado que puede filtrar, comparar y exportar.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.