RA3: Capacitación intermedia con abstracciones de acción temporal para un aprendizaje por refuerzo (RL) más rápido después de la capacitación en LLM de código
TL;DR: Una nueva investigación de Apple formaliza lo que debe hacer el “entrenamiento intermedio” antes del aprendizaje por refuerzo posterior al entrenamiento de RL e introduce RA3 (Razonamiento como abstracciones…