¿Cómo se construye un modelo de lenguaje que crece en capacidad pero mantiene el cálculo de cada token casi sin cambios? El equipo de Inclusion AI de Ant Group está impulsando modelos grandes y dispersos de forma metódica con el lanzamiento de Ling 2.0. Ling 2.0 es una familia de modelos de lenguaje basado en el razonamiento construida sobre la idea de que cada activación debe traducirse directamente en un comportamiento de razonamiento más sólido. Es uno de los enfoques más recientes que muestra cómo mantener la activación pequeña mientras se pasa de 16B a 1T sin reescribir la receta. La serie tiene tres versiones, Ling mini 2.0 con 16B en total con 1.4B activados, Ling flash 2.0 en la clase 100B con 6.1B activados y Ling 1T con 1T en total y alrededor de 50B activos por token.
MoE escaso como diseño central
Cada modelo Ling 2.0 utiliza la misma capa escasa de Mezcla de expertos. Cada capa tiene 256 expertos enrutados y un experto compartido. El enrutador elige 8 expertos enrutados para cada token, el experto compartido siempre está activo, por lo que se utilizan alrededor de 9 expertos de 257 para cada token, esto es aproximadamente un 3,5 por ciento de activación, lo que coincide con la proporción de activación de 1/32. El equipo de investigación informa aproximadamente 7 veces una eficiencia en comparación con un modelo denso equivalente porque entrena y sirve solo una pequeña parte de la red por token mientras mantiene un grupo de parámetros muy grande.
Ling 2.0 ofrece avances coordinados en cuatro capas de la pila, la arquitectura del modelo, la capacitación previa, la capacitación posterior y la infraestructura subyacente del 8PM:
Arquitectura modelo: la arquitectura se elige utilizando las leyes de escala de Ling, no mediante prueba y error. Para respaldar las leyes de escalamiento de Ling, el equipo ejecuta lo que llaman el túnel de viento de Ling, un conjunto fijo de pequeñas ejecuciones de MoE entrenadas con los mismos datos y reglas de enrutamiento, luego adaptadas a leyes de potencia para predecir pérdidas, activación y equilibrio experto en tamaños mucho mayores. Esto les brinda una forma económica de elegir 1/32 de activación, 256 expertos enrutados y 1 experto compartido antes de comprometer las GPU a escala 1T. El enrutamiento no tiene pérdidas auxiliares con puntuación sigmoidea y la pila utiliza norma QK, pérdida de MTP y RoPE parcial para mantener la profundidad estable. Debido a que la misma ley eligió la forma, Ling mini 2.0, Ling flash 2.0 y Ling 1T pueden compartir la consistencia en todos los tamaños.
Entrenamiento previo: la serie se entrena en más de 20 tokens, comenzando con un contexto 4K y una combinación en la que fuentes pesadas de razonamiento, como matemáticas y código, aumentan gradualmente hasta casi la mitad del corpus. Una etapa intermedia de entrenamiento posterior extiende el contexto a aproximadamente 32K en una porción de token seleccionada de 150B, luego inyecta otros 600B de tokens de cadena de pensamiento de alta calidad, antes de finalmente extenderse a 128K con YaRN preservando al mismo tiempo la calidad del contexto corto. Este canal garantiza que el contexto y el razonamiento extensos se introduzcan tempranamente, y no simplemente se agreguen en el paso de SFT.
Después del entrenamiento: la alineación se separa en un pase de capacidad y un pase de preferencia. Primero, el ajuste fino desacoplado le enseña al modelo a cambiar entre respuestas rápidas y razonamiento profundo a través de diferentes indicaciones del sistema, luego una etapa CoT evolutiva expande y diversifica las cadenas y, finalmente, una optimización de políticas a nivel de oración con una recompensa de Arena grupal alinea los resultados con los juicios humanos con granularidad fina. Esta alineación por etapas es lo que permite que una base no pensante alcance un sólido rendimiento en matemáticas, código e instrucción sin inflar cada respuesta.
Infraestructura: Ling 2.0 se entrena de forma nativa en FP8 con salvaguardias, manteniendo la curva de pérdidas dentro de una pequeña brecha de BF16 mientras obtiene aproximadamente un 15 % de utilización en el hardware informado. Las mayores aceleraciones, alrededor del 40 por ciento, provienen del paralelismo de tuberías heterogéneas, la ejecución intercalada hacia adelante y hacia atrás y la partición que tiene en cuenta el bloque MTP, no solo por la precisión. Junto con Warmup Stable Merge, que reemplaza la decadencia de LR fusionando puntos de control, esta pila de sistemas hace que las ejecuciones a escala 1T sean prácticas en clústeres existentes.
Comprender los resultados
Las evaluaciones son consistentes en el patrón, los modelos MoE de activación pequeña ofrecen una calidad competitiva y al mismo tiempo mantienen bajo el cómputo por token. Ling mini 2.0 tiene 16 mil millones de parámetros totales, activa 1,4 mil millones por token y se informa que funciona en la banda densa de 7 a 8 mil millones. Ling flash 2.0 mantiene la misma receta de activación 1/32, tiene 100B y activa 6,1B por token. Ling 1T es el modelo insignia no pensante, tiene 1T de parámetros totales y alrededor de 50 mil millones activos por token, preservando la escasez de 1/32 y extendiendo las mismas leyes de escalamiento de Ling a una escala de billones.
Conclusiones clave
Ling 2.0 se basa en una arquitectura MoE de activación 1/32, seleccionada utilizando las leyes de escalamiento de Ling para que 256 expertos enrutados más 1 experto compartido permanezcan óptimos desde 16B hasta 1T. Ling mini 2.0 tiene 16 mil millones de parámetros totales con 1,4 mil millones activados por token y se informa que coincide con modelos densos de 7 mil millones a 8 mil millones mientras genera más de 300 tokens por segundo en control de calidad simple en H20. Ling flash 2.0 mantiene la misma receta, tiene 6,1 mil millones de parámetros activos y se ubica en el rango de 100 mil millones, lo que brinda una opción de mayor capacidad sin aumentar el cómputo por token. Ling 1T expone el diseño completo, los parámetros totales de 1T con aproximadamente 50B activos por token, contexto de 128K y una pila posterior al entrenamiento estilo Evo CoT plus LPO para impulsar un razonamiento eficiente. En todos los tamaños, las ganancias de eficiencia superiores a 7 veces sobre líneas de base densas provienen de la combinación de activación escasa, capacitación del 8PM y un programa de capacitación compartido, por lo que la calidad escala de manera predecible sin tener que volver a ajustar la computación.
Esta versión demuestra una pila completa de MoE dispersa. Las leyes de escalamiento de Ling identifican una activación de 1/32 como óptima, la arquitectura bloquea 256 expertos enrutados más 1 experto compartido y se utiliza la misma forma de 16B a 1T. La capacitación, la extensión del contexto y la optimización de preferencias están todas alineadas con esa elección, por lo que una pequeña activación no bloquea las matemáticas, el código o el contexto largo, y el FP8 más los canales heterogéneos mantienen los costos en un rango práctico. Es una señal clara de que se puede organizar un razonamiento a escala de billones en torno a una escasez fija en lugar de una computación cada vez más densa.
Consulta los Pesos en HF, Repo y Papel. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.
🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.