Deepseek R1T2 Chimera: 200% más rápido que R1-0528 con razonamiento mejorado y salida compacta

TNG Technology Consulting ha presentado Deepseek-tng R1T2 Chimera, un nuevo modelo de ensamblaje de expertos (AOE) que combina inteligencia y acelera a través de una estrategia de fusión de modelo innovador. Construido a partir de tres modelos parentales de alto rendimiento (R1-0528, R1 y V3-0324-R1T2 demuestra cómo la interpolación de la capa experta a escala puede desbloquear nuevas eficiencias en modelos de idiomas grandes (LLM).

Ensamblaje de expertos: composición de modelo eficiente a escala

La capacitación y el ajuste tradicional de LLM requieren recursos de cómputo masivos. TNG aborda esto con su enfoque de ensamblaje de expertos (AOE), fusionando modelos de mezcla a gran escala de expertos (MOE) a nivel de tensor de peso sin reentrenamiento. Esta estrategia permite la construcción de tiempo lineal de nuevos modelos que heredan las capacidades de múltiples padres. La arquitectura de R1T2 combina tensores expertos de R1 con la base de V3-0324 e incluye selectivamente mejoras de R1-0528, optimizando la compensación entre el costo de inferencia y la calidad del razonamiento.

Ganancias de velocidad y compensaciones de inteligencia

En las comparaciones de referencia, R1T2 es más del 20% más rápido que R1 y más del doble de rápido que R1-0528. Estas ganancias de rendimiento se atribuyen en gran medida a su reducción de la longitud de token de salida e integración selectiva de tensor de expertos. Si bien se queda ligeramente inferior a R1-0528 en inteligencia bruta, supera significativamente a R1 a través de puntos de referencia de alto nivel como GPQA Diamond y AIME-2024/2025.

Además, el modelo conserva las … n trazas de razonamiento, que emergen solo cuando la contribución de R1 a la fusión cruza un umbral específico. Esta consistencia conductual es vital para las aplicaciones que requieren razonamiento paso a paso de la cadena de pensamiento.

Propiedades emergentes en el espacio de parámetros

R1T2 confirma los hallazgos del documento de investigación que lo acompaña que el modelo de fusión puede producir modelos viables en todo el espacio de interpolación. Curiosamente, las propiedades de inteligencia cambian gradualmente, pero los marcadores de comportamiento (como el uso consistente de) emergen abruptamente cerca de una relación de peso R1 del 50%. Esto indica que ciertos rasgos residen en distintos subespacios del paisaje de peso LLM.

Al fusionar solo los tensores expertos enrutados y dejar otros componentes (p. Ej., Atención y MLP compartidos) de V3-0324 intactos, R1T2 mantiene un puntaje de razonamiento alto mientras evita la verbosidad. Este diseño lleva a lo que TNG llama “consistencia de pensamiento-token”, un rasgo de comportamiento donde el razonamiento no solo es preciso sino también conciso.

Discusiones tempranas del Comunidad de Reddit Localllama resaltar las impresiones prácticas de R1T2. Usuarios elogiar la capacidad de respuesta del modeloeficiencia del token y equilibrio entre la velocidad y la coherencia. Un usuario señaló: “Es la primera vez que un modelo de quimera se siente como una actualización real tanto en velocidad como en calidad”. Otro señaló que funciona mejor en los contextos con pesas matemáticas en comparación con las variantes R1 anteriores.

Algunos Redditors también observaron que R1T2 exhibe una persona más fundamentada, evitando las alucinaciones de manera más consistente que los modelos basados ​​en R1 o V3. Tales rasgos emergentes son particularmente relevantes para los desarrolladores que buscan backends estables de LLM para entornos de producción.

Peso abierto y disponibilidad

R1T2 está disponible públicamente bajo la licencia MIT en la cara de abrazo: Deepseek-tng r1t2 quimera. El lanzamiento fomenta la experimentación comunitaria, incluido el aprendizaje de refuerzo y ajuste aguas abajo. Según TNG, las implementaciones internas a través de la plataforma de inferencia sin servidor de Chutes ya están procesando cerca de 5 mil millones de tokens diarios.

Conclusión

Deepseek-tng R1T2 Chimera muestra el potencial de la construcción de ensamblaje de expertos para generar LLM de rendimiento y eficiente sin la necesidad de capacitación basada en gradientes. Al combinar estratégicamente las capacidades de razonamiento de R1, el diseño de token-eficiente de V3-0324 y mejoras de R1-0528, R1T2 establece un nuevo estándar para el diseño de modelo equilibrado. Su lanzamiento de peso abierto bajo la licencia MIT garantiza la accesibilidad, lo que lo convierte en un fuerte candidato para los desarrolladores que buscan modelos de idiomas grandes rápidos, capaces y personalizables.

Con la fusión del modelo probando viable incluso en la escala de parámetros 671B, el R1T2 de TNG puede servir como un plan para futuros experimentos en la interpolación del espacio de parámetros, lo que permite un desarrollo LLM más modular e interpretable.


Mira el Papel y Pesas abiertas en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarkTechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.