Anyscale y NovaSky Team lanzan SkyRL tx v0.1.0: lleva el motor RL de aprendizaje por refuerzo compatible con Tinker a los clústeres de GPU locales

¿Cómo pueden los equipos de IA ejecutar el aprendizaje por refuerzo al estilo Tinker en modelos de lenguaje grandes utilizando su propia infraestructura con un único motor unificado? Anyscale y NovaSky (UC Berkeley) Team lanzan SkyRL tx v0.1.0 que brinda a los desarrolladores una forma de ejecutar un motor de inferencia y entrenamiento compatible con Tinker directamente en su propio hardware, manteniendo al mismo tiempo la misma API mínima que Tinker expone en el servicio administrado.

El equipo de investigación describe SkyRL tx como un motor de inferencia y capacitación unificado que implementa la API de Tinker y permite a las personas ejecutar un servicio similar a Tinker en su propia infraestructura. Esta versión v0.1.0 es la primera de su serie que admite el aprendizaje por refuerzo de un extremo a otro y también hace que el muestreo sea significativamente más rápido.

API de Tinker en breve

Tinker de Thinking Machines es una API de capacitación basada en cuatro funciones principales. forward_backward realiza un pase hacia adelante y hacia atrás y acumula gradientes. optim_step actualiza los pesos del modelo en función de esos gradientes. La muestra genera tokens para interacción, evaluación o acciones de RL. save_state escribe puntos de control para reanudar el entrenamiento.

En lugar de una abstracción de ajuste fino específica de una tarea completa, Tinker expone estas primitivas de bajo nivel para que los usuarios puedan implementar sus propios bucles de aprendizaje supervisados o de refuerzo en código Python normal, mientras el servicio maneja la programación de GPU y la ejecución distribuida.

SkyRL tx apunta exactamente a esta API e implementa un backend abierto que los usuarios pueden implementar localmente. Mantiene el modelo de programación Tinker, al tiempo que elimina la necesidad de depender únicamente del entorno alojado.

Donde encaja SkyRL tx dentro de SkyRL

SkyRL es una biblioteca de aprendizaje de refuerzo de pila completa para modelos de lenguaje grandes que incluye skyrl-agent para agentes de largo horizonte, skyrl-train para capacitación y skyrl-gym para entornos de uso de herramientas como matemáticas, codificación, búsqueda y SQL.

Dentro de esta pila, skyrl-tx está marcado como una biblioteca multiplataforma experimental que expone una API REST local tipo Tinker para el entrenamiento posterior del modelo. Por lo tanto, SkyRL tx se convierte en la capa del sistema que conecta la lógica, los entornos y el código de entrenamiento de RL con recursos concretos de la GPU a través de la interfaz Tinker.

Arquitectura, motor de inferencia que también entrena

La arquitectura SkyRL tx se describe como un motor de inferencia que también admite pases hacia atrás. Tiene cuatro componentes principales:

Servidor REST API que procesa solicitudes entrantes de diferentes usuarios. Base de datos que rastrea metadatos sobre modelos, puntos de control, solicitudes y futuros, y también actúa como una cola de trabajos. La implementación actual utiliza SQLite detrás de una interfaz que también admite otras bases de datos SQL como Postgres. Motor que programa y agrupa solicitudes entre usuarios. Cada instancia de motor sirve para un único modelo base y puede conectar muchos adaptadores LoRA. Trabajador que ejecuta pases hacia adelante y hacia atrás y mantiene definiciones de modelo y estados del optimizador. Varios trabajadores permitirían una fragmentación de múltiples nodos más avanzada en las próximas versiones.

¿Qué añade la v0.1.0?

La versión v0.1.0 se centra en el soporte del aprendizaje por refuerzo y en mejoras de rendimiento. El comunicado oficial destaca varios cambios concretos:

El muestreo ahora es mucho más rápido, ya que está agitado y correctamente dosificado y fragmentado en el motor. Ahora se admiten diferentes parámetros de muestreo por solicitud, por semilla de solicitud y tokens de parada, lo cual resulta útil cuando muchos experimentos comparten un modelo base. Después de varias correcciones, el bucle RL ahora funciona correctamente a través del motor. Se implementan soporte de puntos de control de gradiente y micro lotes para muestreo. Postgres ahora es compatible como backend de base de datos, junto a SQLite.

Ejecutando RL de extremo a extremo en 8 GPU H100

El lanzamiento oficial contiene una receta de código específica para ejecutar el aprendizaje por refuerzo de un extremo a otro en un clúster con 8 GPU H100.

Primero, los usuarios clonan el repositorio SkyRL y en la carpeta skyrl-tx inician el motor con:

uv run –extra gpu –extra tinker -m tx.tinker.api \ –base-model Qwen/Qwen3-4B \ –max-lora-adapters 3 \ –max-lora-rank 1 \ –tensor-parallel-size 8 \ –train-micro-batch-size 8 > out.log

Luego clonan el Tinker Cookbook del equipo de Thinking Machines y en la carpeta tinker_cookbook/recipes ejecutan:

exportar TINKER_API_KEY=exportación ficticia WANDB_API_KEY= uv run –con wandb –con tinker rl_loop.py \ base_url=http://localhost:8000 \ model_name=”Qwen/Qwen3-4B” \ lora_rank=1 \ max_length=1024 \ save_every=100

Esto produce una curva de recompensa que confirma que el bucle RL se ejecuta correctamente a través del backend local de SkyRL tx.

Conclusiones clave

SkyRL tx v0.1.0 implementa un motor local compatible con Tinker que unifica la capacitación y la inferencia para la capacitación posterior a LLM. El sistema expone las primitivas de Tinker, forward_backward, optim_step, sample y save_state sobre REST, mientras maneja internamente el procesamiento por lotes, los adaptadores LoRA y la ubicación de dispositivos. La arquitectura se divide en servidor API, base de datos SQL, motor de programación y trabajadores que ejecutan pases hacia adelante y hacia atrás para un único modelo base con múltiples adaptadores LoRA. v0.1.0 agrega soporte de aprendizaje por refuerzo de extremo a extremo, muestreo fragmentado y fragmentado más rápido, parámetros de muestreo por solicitud, puntos de control de gradiente, micro procesamiento por lotes y soporte para Postgres.

SkyRL tx v0.1.0 es un paso práctico para los equipos de desarrollo que desean un aprendizaje reforzado al estilo Tinker en sus propios clústeres con una superficie API Tinker consistente. El diseño que trata el sistema como un motor de inferencia que también ejecuta pases hacia atrás es limpio y reduce la divergencia de la pila. La compatibilidad con LoRA, puntos de control de gradiente, micro lotes y Postgres es una actualización concreta de los sistemas. En general, esta versión convierte la compatibilidad de Tinker en un backend de RL local procesable para LLM.

Consulte el repositorio y el lanzamiento oficial. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.

Anyscale y NovaSky Team lanzan SkyRL tx v0.1.0: lleva el motor RL de aprendizaje por refuerzo compatible con Tinker a los clústeres de GPU locales

ByEquipo de 7 minutos

API de Tinker en breve

Donde encaja SkyRL tx dentro de SkyRL

Arquitectura, motor de inferencia que también entrena

¿Qué añade la v0.1.0?

Ejecutando RL de extremo a extremo en 8 GPU H100

Conclusiones clave

By Equipo de 7 minutos

Related Post

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

You missed

Video captura a mujer atacándola en McDonald’s

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

‘Olas altas que se mueven a cámara lenta’: así es como se pueden comportar los océanos aceitosos en Titán, la luna gigante de Saturno

La construcción de Trump, palooza BS, continúa sin cesar