Thinking Machines ha lanzado a Tinker, una API de Python que permite a los investigadores e ingenieros escribir bucles de capacitación localmente mientras la plataforma los ejecuta en grupos de GPU distribuidos administrados. El tono es estrecho y técnico: mantenga el control total de los datos, los objetivos y los pasos de optimización; Entregue la programación, la tolerancia a las fallas y la orquestación de múltiples nodos. El servicio está en beta privado con una lista de espera y comienza gratis, pasando a los precios basados en el uso “en las próximas semanas”.
Muy bien, pero dime qué es.
Tinker expone primitivas de bajo nivel, no envoltorios de alto nivel “Train ()”. Las llamadas centrales incluyen Forward_backward, Optim_step, Save_State y Sample, lo que brinda a los usuarios control directo sobre el cálculo de gradiente, el paso de optimizador, el punto de control e evaluación/inferencia dentro de los bucles personalizados. Un flujo de trabajo típico: instanciar a un cliente de entrenamiento Lora contra un modelo base (por ejemplo, LLAMA-3.2-1B), iterar hacia adelante_backward/optim_step, Persist State, luego obtener un cliente de muestreo para evaluar o exportar pesos.
Características clave
Cobertura del modelo de peso abierto. Las familias de afinidad como Llama y Qwen, incluidas grandes variantes de la mezcla de expertos (por ejemplo, QWEN3-235B-A22B). Post-entrenamiento basado en Lora. Tinker implementa la adaptación de bajo rango (LORA) en lugar de ajustar completo; Su nota técnica (“Lora sin arrepentimiento”) argumenta que Lora puede igualar el FT completo para muchas cargas de trabajo prácticas, especialmente RL, bajo la configuración correcta. Artefactos portátiles. Descargue pesas del adaptador capacitado para usar el tinker externo (por ejemplo, con su pila/proveedor de inferencia preferida).
¿Qué se ejecuta en él?
El equipo de Thinking Machines posiciona a Tinker como una plataforma de post-entrenamiento administrada para modelos de peso abierto desde pequeños LLM hasta grandes sistemas de mezcla de expertos, un buen ejemplo sería QWEN-235B-A22B como modelo compatible. El cambio de modelos es intencionalmente mínimo: cambie un identificador de cadena y vuelva a ejecutar. Debajo del capó, las ejecuciones están programadas en los grupos internos de las máquinas de pensamiento; El enfoque LORA permite grupos de cómputo compartidos y una menor sobrecarga de utilización.
🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial
Libro de cocina de Tinker: bucles de capacitación de referencia y recetas posteriores a la capacitación
Para reducir la caldera mientras mantiene la API central delgada, el equipo publicó el libro de cocina Tinker (Apache-2.0). Contiene bucles de referencia listos para usar para el aprendizaje supervisado y el aprendizaje de refuerzo, además de ejemplos trabajados para RLHF (SFT de tres etapas → Modelado de recompensas → Política RL), recompensas de racionalización de matemáticas, tareas de uso de herramientas / recuperación, destilación rápida y configuraciones múltiples. El repositorio también envía utilidades para el cálculo de hiperparameter de Lora e integraciones para la evaluación (por ejemplo, Inspectai).
¿Quién ya lo está usando?
Los primeros usuarios incluyen grupos en Princeton (equipo de Gödel Prover), Stanford (Rotskoff Chemistry), UC Berkeley (Skyrl, Async Off-Policy Multi-Agent/Tool-Use RL) e Redwood Research (RL en QWEN3-32B para tareas de control).
Tinker es beta privado a partir de ahora con el registro de la lista de espera. El servicio es gratuito para comenzar, con un precio basado en el uso planeado en breve; Se les pide a las organizaciones que se comuniquen con el equipo directamente para incorporar.
Me gusta que Tinker exponga primitivas de bajo nivel (hacia adelante_backward, Optim_step, Save_state, Sample) en lugar de un tren monolítico (): mantiene un diseño objetivo, conformación de recompensas y evaluación en mi control mientras descarga la orquestación de nodos múltiples a sus clusters administrados. La postura Lora-First es pragmática para el costo y el cambio, y su propio análisis argumenta que Lora puede igualar el ajuste completo cuando se configura correctamente, pero aún desearía registros transparentes, semillas deterministas y telemetría por paso para verificar la reproducibilidad y la deriva. Los bucles de referencia RLHF y SL del libro de cocina son puntos de partida útiles, sin embargo, juzgaré la plataforma sobre la estabilidad del rendimiento, la portabilidad del punto de control y las barandillas para el gobierno de datos (manejo de PII, senderos de auditoría) durante las cargas de trabajo reales.
En general, prefiero la API abierta y flexible de Tinker: me permite personalizar LLM de peso abierto a través de primitivas explícitas de bucle de entrenamiento mientras el servicio maneja la ejecución distribuida. En comparación con los sistemas cerrados, esto preserva el control algorítmico (pérdidas, flujos de trabajo RLHF, manejo de datos) y reduce la barrera para que los nuevos practicantes experimenten e iteraran.
Consulte los detalles técnicos y regístrese en nuestra lista de espera aquí. Si es una universidad u organización que busca acceso a gran escala, comuníquese con [email protected].
No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín. ¡Esperar! ¿Estás en Telegram? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca por transformar conjuntos de datos complejos en ideas procesables.
🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial