Este artículo de IA presenta TinyLoRA, un método de ajuste fino de 13 parámetros que alcanza el 91,8 por ciento de GSM8K en Qwen2.5-7B

Investigadores de FAIR en Meta, la Universidad de Cornell y la Universidad Carnegie Mellon han demostrado que los modelos de lenguaje grandes (LLM) pueden aprender a razonar utilizando una cantidad notablemente pequeña de parámetros entrenados. El equipo de investigación presenta TinyLoRA, una parametrización que puede reducirse a un único parámetro entrenable en entornos de uso compartido extremos. Utilizando este método en una red troncal Qwen2.5-7B-Instruct, el equipo de investigación logró una precisión del 91,8% en el punto de referencia GSM8K con solo 13 parámetros, con un total de solo 26 bytes en bf16.

Superar las limitaciones de LoRA estándar

La adaptación estándar de bajo rango (LoRA) adapta una capa lineal congelada W ∈ Rdxk utilizando matrices entrenables A ∈ Rdxr y B ∈ Rrxk. El recuento de parámetros entrenables en LoRA estándar todavía escala con el ancho y el rango de la capa, lo que deja un límite inferior no trivial incluso en el rango 1. Para un modelo como Llama3-8B, este tamaño mínimo de actualización es de aproximadamente 3 millones de parámetros.

TinyLoRA evita esto basándose en LoRA-XS, que utiliza la descomposición de valores singulares (SVD) truncada de pesos congelados. Si bien LoRA-XS generalmente requiere al menos un parámetro por módulo adaptado, TinyLoRA reemplaza la matriz entrenable con un vector entrenable de baja dimensión 𝜐 ∈ Ru proyectado a través de un tensor aleatorio fijo P ∈ Ruxrxr.

La regla de actualización se define como:

$$W’ = W + U\Sigma(\sum_{i=1}^{u}v_{i}P_{i})V^{\top}$$

Al aplicar un factor de vinculación de peso (ntie), el total de parámetros entrenables se escala como O(nmu/ntie), lo que permite que las actualizaciones se reduzcan a un solo parámetro cuando todos los módulos de todas las capas comparten el mismo vector.

Aprendizaje por refuerzo: el catalizador para pequeñas actualizaciones

Un hallazgo central de la investigación es que el aprendizaje por refuerzo (RL) es fundamentalmente más eficiente que el ajuste fino supervisado (SFT) con recuentos de parámetros extremadamente bajos. El equipo de investigación informa que los modelos entrenados mediante SFT requieren actualizaciones de 100 a 1000 veces mayores para alcanzar el mismo rendimiento que los entrenados con RL.

Esta brecha se atribuye a la “densidad de información” de la señal de entrenamiento. SFT obliga a un modelo a absorber muchos bits de información (incluido ruido estilístico y estructuras irrelevantes de manifestaciones humanas) porque su objetivo trata todos los tokens como igualmente informativos. Por el contrario, RL (específicamente la Optimización de políticas relativas al grupo o GRPO) proporciona una señal más escasa pero más limpia. Debido a que las recompensas son binarias (por ejemplo, coincidencia exacta con una respuesta matemática), las características relevantes para la recompensa se correlacionan con la señal, mientras que las variaciones irrelevantes se cancelan mediante el remuestreo.

Directrices de optimización para desarrolladores

El equipo de investigación aisló varias estrategias para maximizar la eficiencia de pequeñas actualizaciones:

Rango congelado óptimo (r): El análisis mostró que un rango SVD congelado de r=2 era óptimo. Los rangos más altos introdujeron demasiados grados de libertad, lo que complicó la optimización del pequeño vector entrenable. Mosaico versus uso compartido estructurado: el equipo de investigación comparó el uso compartido “estructurado” (módulos del mismo tipo comparten parámetros) con el “mosaico” (módulos cercanos con parámetros compartidos de profundidad similares). Sorprendentemente, el mosaico fue más efectivo y no mostró ningún beneficio inherente al forzar el intercambio de parámetros exclusivamente entre proyecciones específicas como módulos de consulta o clave. Precisión: en regímenes de bits restringidos, el almacenamiento de parámetros en fp32 resultó tener el mejor rendimiento bit por bit, incluso teniendo en cuenta su mayor huella en comparación con bf16 o fp16.

Rendimiento de referencia

El equipo de investigación informa que los modelos Qwen-2.5 a menudo necesitaban alrededor de 10 veces menos parámetros actualizados que LLaMA-3 para alcanzar un rendimiento similar en su configuración.

ModeloParámetros entrenadosGSM8K Pass@1Qwen2.5-7B-Instruct (Base)088.2%Qwen2.5-7B-Instruct182.0%Qwen2.5-7B-Instruct1391.8%Qwen2.5-7B-Instruct19692.2%Qwen2.5-7B-Instruct (FT completo)~7.6 mil millones91.7%

En puntos de referencia más difíciles como MATH500 y AIME24, las actualizaciones de 196 parámetros para Qwen2.5-7B-Instruct mantuvieron el 87% de la mejora absoluta del rendimiento del ajuste completo en seis puntos de referencia matemáticos difíciles.

Conclusiones clave

Eficiencia extrema de parámetros: es posible entrenar un modelo Qwen2.5-7B-Instruct para lograr una precisión del 91,8 % en el punto de referencia matemático GSM8K utilizando solo 13 parámetros (26 bytes en total). La ventaja de RL: el aprendizaje por refuerzo (RL) es fundamentalmente más eficiente que el ajuste fino supervisado (SFT) en regímenes de baja capacidad; SFT requiere actualizaciones entre 100 y 1000 veces mayores para alcanzar el mismo nivel de rendimiento que RL. Marco TinyLoRA: el equipo de investigación desarrolló TinyLoRA, una nueva parametrización que utiliza vinculación de peso y proyecciones aleatorias para reducir los adaptadores de rango bajo a un único parámetro entrenable. Optimización de la “Micro-Actualización”: Para estas pequeñas actualizaciones, la precisión fp32 es más eficiente en bits que los formatos de media precisión, y el “mosaico” (compartir parámetros por profundidad del modelo) supera el uso compartido estructurado por tipo de módulo. Tendencias de escala: a medida que los modelos crecen, se vuelven más “programables” con menos parámetros absolutos, lo que sugiere que los modelos a escala de un billón podrían potencialmente ajustarse para tareas complejas utilizando solo un puñado de bytes.

Consulte el documento. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Este artículo de IA presenta TinyLoRA, un método de ajuste fino de 13 parámetros que alcanza el 91,8 por ciento de GSM8K en Qwen2.5-7B

ByEquipo de 7 minutos

Superar las limitaciones de LoRA estándar

Aprendizaje por refuerzo: el catalizador para pequeñas actualizaciones

Directrices de optimización para desarrolladores

Rendimiento de referencia

Conclusiones clave

By Equipo de 7 minutos

Related Post

Una implementación de codificación en Qwen 3.6-35B-A3B que cubre inferencia multimodal, control de pensamiento, llamada de herramientas, enrutamiento MoE, RAG y persistencia de sesión

Moonshot AI lanza Kimi K2.6 con codificación de horizonte largo, enjambre de agentes ampliado a 300 subagentes y 4000 pasos coordinados

La apuesta del LLM | Hacia la ciencia de datos

You missed

Jollibee Group informa ingresos operativos récord en el cuarto trimestre; Publica sólidos resultados para todo el año 2025

353 casas de lujo en un solar abandonado « Euro Weekly News

Fotos de Queen Naija y Clarence “Ring”, mamá habla (fotos + vídeos)

¿Podemos ‘vacunarnos’ contra el estrés?