Lograr un razonamiento fuerte y de varios pasos en LMS sigue siendo un desafío importante, a pesar del progreso notable en el rendimiento general de la tarea. Tal razonamiento es crucial para los dominios complejos de resolución de problemas, como la investigación científica y la planificación estratégica. Tradicionalmente, mejorar las habilidades de razonamiento implica ajuste fino supervisado (SFT), donde los modelos aprenden imitando demostraciones de razonamiento paso a paso de modelos más avanzados, como O1. Si bien es efectivo, este método depende en gran medida de la disponibilidad de rastros de razonamiento de alta calidad, que son costosos y el riesgo de promover la imitación superficial sobre la exploración lógica genuina. RL ofrece una alternativa al permitir que los modelos aprendan directamente de las señales de recompensa, alentando la exploración de razonamiento más amplia. Sin embargo, los enfoques de RL a menudo son muy pesados y complejos, planteando la cuestión de cómo construir modelos con capacidad de razonamiento de manera rentable.
Tras el lanzamiento de modelos fuertes como O1-Preview, varios esfuerzos de código abierto como Still, Sky-T1, Simplerl, Prime y DeepScaler han explorado estrategias eficientes para replicar o superar las capacidades de razonamiento de O1. Las técnicas incluyen aprendizaje de imitación ligera, ajuste de instrucciones escalables y métodos RL simplificados. Mientras tanto, las innovaciones más nuevas, como la optimización de políticas relativas del grupo (GRPO), mejoran la eficiencia de capacitación de RL al eliminar la necesidad de redes de valor separadas, como se ve en modelos como Deepseek-R1. Para obtener costos de capacitación más bajos, los investigadores también están investigando los métodos de adaptación de bajo rango (LORA), que actualizan solo un pequeño subconjunto de parámetros del modelo, manteniendo la modularidad al tiempo que preservan la capacidad de razonamiento. Este enfoque permite un ajuste fino eficiente sin las demandas computacionales de las actualizaciones de parámetro completo.
Investigadores de la Universidad del Sur de California presentan a Tina, una familia de modelos de razonamiento compacto que logran un rendimiento fuerte con un costo mínimo. Usando RL mejorado por Lora en un modelo base de parámetros 1.5B, los modelos TINA superan o coinciden con los modelos de última generación con una fracción del gasto computacional. Su mejor modelo mejora el rendimiento del razonamiento en más del 20% y logra un 43.33% de pase@1 en AIME24, con un costo posterior a la capacitación de solo $ 9. Al aprovechar la eficiencia de Lora para adaptar los formatos de razonamiento al tiempo que preserva el conocimiento base, Tina destaca un enfoque altamente accesible y rentable, con todos los recursos completamente abiertos.
Tina es una familia de pequeños modelos de razonamiento construidos por el modelo posterior al entrenamiento del modelo Deepseek-R1-Distill-Qwen-1.5b usando Lora durante el aprendizaje de refuerzo con un enfoque de estilo GRPO. El marco enfatiza el minimalismo: modelos Tiny, pequeñas actualizaciones de parámetros y una baja hardware y una huella presupuestaria. Los modelos Tina fueron entrenados utilizando conjuntos de datos públicos y configuraciones replicadas de modelos como Still-3, DeepScaler y Open-RS. El entrenamiento aprovechó la base de código OpenR1, la sintonización mínima de hiperparámetro y solo dos GPU NVIDIA L40S, ocasionalmente GPU RTX 6000 ADA. Los costos de capacitación y evaluación fueron bajos, promediando muy por debajo de un presupuesto de $ 100 por experimento, lo que hace que Tina sea una plataforma altamente accesible para la investigación de razonamiento.
Para garantizar comparaciones justas, los autores reevaluaron los modelos de razonamiento de línea de base utilizando una configuración consistente con el marco Lighteval y el motor VLLM, eliminando así las variaciones introducidas por estudios previos. Se utilizaron seis puntos de referencia de razonamiento, incluidos AIME 24/25, AMC 23, Math 500, GPQA y Minerva. Luego evaluaron los modelos de Tina, versiones pequeñas y entrenadas en Lora de los modelos de referencia), mostrando que los modelos de Tina a menudo superaban a sus contrapartes de parámetro completo a pesar de usar un entrenamiento mínimo (19-57% de una época). Otros estudios de ablación revelaron que los conjuntos de datos más pequeños y de alta calidad, las tasas de aprendizaje apropiadas, los rangos de Lora moderados y la elección cuidadosa del algoritmo RL afectaron significativamente el rendimiento, confirmando la eficiencia y la robustez de su enfoque de razonamiento basado en Lora.
En conclusión, Tina, una serie de modelos de razonamiento liviano que logran un rendimiento fuerte utilizando recursos computacionales mínimos. Al aplicar Lora durante RL en un modelo base de 1,5 parámetros B, logran habilidades de razonamiento competitivas con modelos de vanguardia más grandes a un costo posterior a la capacitación de solo $ 9. Los modelos TINA muestran más de una mejora del 20% en el razonamiento y el 43.33% pase la precisión en AIME24. Si bien muestra una impresionante eficiencia de rendimiento de costo, quedan limitaciones, incluida la escala de modelo más pequeña, la diversidad limitada en las tareas de razonamiento y el ajuste mínimo de hiperparameter. Todos los puntos de control de código, registros y modelos están de origen abierto para promover la investigación accesible y una mayor exploración.
Mira el Papel y Página de Github. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.