Los investigadores de Tencent lanzan Tencent HY-MT1.5: nuevos modelos de traducción con modelos 1.8B y 7B diseñados para una implementación perfecta en el dispositivo y en la nube

Los investigadores de Tencent Hunyuan han lanzado HY-MT1.5, una familia de traducción automática multilingüe que se dirige tanto a dispositivos móviles como a sistemas en la nube con la misma receta y métricas de capacitación. HY-MT1.5 consta de 2 modelos de traducción, HY-MT1.5-1.8B y HY-MT1.5-7B, admite traducción mutua en 33 idiomas con 5 variaciones étnicas y dialectales y está disponible en GitHub y Hugging Face bajo pesos abiertos.

Familia de modelos y objetivos de implementación

HY-MT1.5-7B es una versión mejorada del sistema de campeonato WMT25 Hunyuan-MT-7B. Está optimizado para traducción explicativa y escenarios de idiomas mixtos, y agrega soporte nativo para intervención terminológica, traducción contextual y traducción formateada.

HY-MT1.5-1.8B es la variante compacta. Tiene menos de un tercio de los parámetros de HY-MT1.5-7B, pero ofrece un rendimiento de traducción comparable en los puntos de referencia informados. Después de la cuantificación, el modelo 1.8B puede ejecutarse en dispositivos periféricos y admitir traducción en tiempo real.

El HY-MT1.5-1.8B cuantificado funciona en dispositivos con aproximadamente 1 GB de memoria y alcanza un tiempo de respuesta promedio de aproximadamente 0,18 segundos para entradas chinas de alrededor de 50 tokens, al tiempo que supera en calidad a las API de traducción comerciales convencionales. HY-MT1.5-7B está dirigido a servidores y a implementaciones periféricas de gama alta, donde una latencia de alrededor de 0,45 segundos es aceptable a cambio de una mayor calidad.

Marco de formación holístico

El equipo de investigación define HY-MT1.5 como un modelo de lenguaje específico de traducción entrenado con un proceso de múltiples etapas.

El oleoducto tiene 5 componentes principales:

Preentrenamiento general: el modelo base primero se entrena previamente en texto multilingüe a gran escala con un objetivo de modelado del lenguaje. Esto construye representaciones compartidas entre idiomas. Preentrenamiento orientado a MT: Luego, el modelo se expone a corpus paralelos y objetivos orientados a la traducción. Este paso alinea la distribución de la generación con tareas de traducción reales en lugar de la generación de texto abierto. Ajuste fino supervisado: se utilizan datos paralelos a nivel de documentos y oraciones de alta calidad para ajustar el modelo con pérdida supervisada. Esta etapa agudiza la corrección literal, la cobertura del dominio y la dirección del comportamiento específico, como ZH a EN versus EN a ZH. Sobre la destilación de políticas de 7B a 1.8B: HY-MT1.5-7B se utiliza como maestro para HY-MT1.5-1.8B. El equipo de investigación recopila alrededor de 1 millón de indicaciones monolingües en los 33 idiomas, las pasa por el maestro y utiliza la divergencia inversa de Kullback Leibler en los despliegues de los estudiantes para que coincida con la distribución del maestro. Esto produce un estudiante de 1.800 millones que hereda la mayor parte del comportamiento de traducción del modelo 7B con un costo mucho menor. Aprendizaje reforzado con evaluación basada en rúbricas: en la etapa final, ambos modelos se optimizan con un algoritmo de estilo de optimización de políticas relativas al grupo y un modelo de recompensa basado en rúbricas. Los revisores humanos califican las traducciones en múltiples ejes, como precisión, fluidez, idiomaticidad y adecuación cultural. El modelo de recompensa destila esos puntajes y orienta la actualización de la política.

Este canal es específico de la traducción automática. Se diferencia de la capacitación LLM orientada al chat al combinar datos supervisados ​​centrados en la traducción, sobre la destilación de políticas dentro del dominio de la traducción y RL ajustado con rúbricas de traducción detalladas.

Resultados comparativos frente a sistemas abiertos y comerciales

HY-MT1.5 se evalúa en Flores 200, WMT25 y un punto de referencia de mandarín a idioma minoritario utilizando XCOMET-XXL y CometKiwi.

https://arxiv.org/pdf/2512.24092v1

Resultados clave de la tabla anterior del informe:

En Flores 200, HY-MT1.5-7B alcanza puntuaciones XCOMET-XXL de 0,8690 para ZH a XX, 0,9093 para EN a XX y 0,8098 para XX a XX. Supera a los modelos especializados en traducción como iFLYTEK Translator y Doubao Translator e iguala o supera a los modelos generales de tamaño mediano como Qwen3-235B-A22B. En WMT25, HY-MT1.5-7B alcanza XCOMET-XXL 0,6159. Esto es aproximadamente 0,065 más que Gemini 3.0 Pro y significativamente por encima de los modelos orientados a la traducción como Seed-X-PPO-7B y Tower-Plus-72B. HY-MT1.5-1.8B obtiene una puntuación de 0,5308, que aún supera a muchos modelos generales y sistemas de traducción de tamaño mediano. En pares de idiomas desde mandarín hasta minorías, HY-MT1.5-7B alcanza 0,6174 en XCOMET-XXL, superior a todas las líneas base, incluido Gemini 3.0 Pro. La variante 1.8B alcanza 0.5806 y aún supera a varios modelos muy grandes como DeepSeek-V3.2.

En la evaluación humana en una escala de 0 a 4 de chino a inglés y de inglés a chino, HY-MT1.5-1.8B logra una puntuación promedio de 2,74, que es más alta que los sistemas de traducción de Baidu, iFLYTEK, Doubao, Microsoft y Google bajo el mismo protocolo.

Características prácticas para el uso del producto.

Los modelos exponen tres capacidades impulsadas por avisos que son importantes en los sistemas de producción:

Intervención terminológica: una plantilla de aviso le permite inyectar asignaciones de términos como “混元珠 → Chaos Pearl”. Sin el mapeo, el modelo genera una transliteración ambigua. Con el mapeo, se aplica un término específico de dominio consistente. Esto es fundamental para contenido legal, médico o de marca. Traducción consciente del contexto: una segunda plantilla acepta un bloque de contexto más la oración a traducir. El informe muestra que la palabra “piloto” se malinterpreta como persona cuando no hay contexto. Cuando se agrega un párrafo sobre series de televisión, el modelo traduce correctamente “piloto” como episodio. Formato que preserva la traducción: una tercera plantilla envuelve la fuente en etiquetas y marca los intervalos con etiquetas. La instrucción obliga al modelo a mantener etiquetas y resultados dentro de etiquetas. Esto permite que el texto tipo HTML o XML sobreviva a la traducción manteniendo la estructura.

Estos se implementan como formatos de aviso, por lo que están disponibles incluso cuando llama al público a través de pilas de LLM estándar.

Cuantización e implementación perimetral

HY-MT1.5-1.8B se evalúa con cuantificación posterior al entrenamiento FP8 e Int4 utilizando GPTQ.

https://arxiv.org/pdf/2512.24092v1

La Tabla 4 anterior muestra:

FP8 mantiene las puntuaciones de XCOMET-XXL muy cercanas al modelo de precisión total, por ejemplo, 0,8379 frente a 0,8361 para ZH a XX. Int4 reduce aún más el tamaño pero introduce claras caídas de calidad en Flores 200.

En Hugging Face, Tencent publica variantes FP8 y GPTQ Int4 para HY-MT1.5-1.8B y HY-MT1.5-7B, junto con versiones GGUF para pilas de inferencia locales. La cuantificación es el mecanismo que permite la implementación de memoria de 1 GB y la baja latencia en el hardware de consumo.

Conclusiones clave

HY-MT1.5 es una familia de traducción de 2 modelos, HY-MT1.5-1.8B y HY-MT1.5-7B, que admite traducción mutua en 33 idiomas más 5 dialectos o variantes, lanzada con pesos abiertos en GitHub y Hugging Face. HY-MT1.5-1.8B es un modelo de borde basado en destilación que se ejecuta en aproximadamente 1 GB de memoria con aproximadamente 0,18 segundos de latencia para 50 entradas simbólicas de chino, al tiempo que logra un rendimiento líder en la industria entre modelos de tamaño similar y supera a la mayoría de las API de traducción comerciales. HY-MT1.5-7B es un sistema campeón WMT25 actualizado que alcanza aproximadamente el 95 por ciento de Gemini 3.0 Pro en Flores 200 y lo supera en los puntos de referencia minoritarios WMT25 y Mandarin, compitiendo con modelos abiertos y cerrados mucho más grandes. Ambos modelos se entrenan con un proceso holístico específico de traducción que combina capacitación previa general y orientada a la traducción automática, ajuste fino supervisado, destilación de políticas y aprendizaje de refuerzo guiado por una evaluación humana basada en rúbricas, que es fundamental para su compensación de calidad y eficiencia. HY-MT1.5 expone características orientadas a la producción a través de indicaciones, incluida la intervención terminológica, traducción consciente del contexto y traducción que preserva el formato, y envía variantes FP8, Int4 y GGUF para que los equipos puedan implementar en dispositivos o servidores con pilas LLM estándar.

Consulte el papel, los pesos de los modelos en HF y GitHub Repo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.