Google AI lanza TranslateGemma: una nueva familia de modelos de traducción abiertos basados ​​en Gemma 3 con soporte para 55 idiomas

Google AI ha lanzado TranslateGemma, un conjunto de modelos abiertos de traducción automática construidos sobre Gemma 3 y dirigidos a 55 idiomas. La familia viene en tamaños de parámetros 4B, 12B y 27B. Está diseñado para ejecutarse en dispositivos, desde hardware móvil y de vanguardia hasta computadoras portátiles y una única instancia de GPU o TPU H100 en la nube.

TranslateGemma no es una arquitectura separada. Es Gemma 3 especializada en traducción a través de un proceso de posformación de dos etapas. (1) ajuste fino supervisado en grandes corpus paralelos. (2) Aprendizaje por refuerzo que optimiza la calidad de la traducción con un conjunto de recompensa de múltiples señales. El objetivo es mejorar la calidad de la traducción manteniendo las instrucciones generales siguiendo el comportamiento de Gemma 3.

Ajuste fino supervisado de datos paralelos sintéticos y humanos

La etapa de puesta a punto supervisada comienza desde los puntos de control públicos Gemma 3 4B, 12B y 27B. El equipo de investigación utiliza datos paralelos que combinan traducciones humanas con traducciones sintéticas de alta calidad generadas por modelos Gemini.

Los datos sintéticos se producen a partir de fuentes monolingües con un procedimiento de varios pasos. El proceso selecciona oraciones candidatas y documentos breves, los envía a Gemini 2.5 Flash y luego filtra los resultados con MetricX 24 QE para conservar solo ejemplos que muestran claras ganancias de calidad. Esto se aplica en todos los pares de idiomas WMT24 plus plus y en 30 pares de idiomas más.

Los idiomas de bajos recursos reciben datos paralelos generados por humanos de los conjuntos de datos SMOL y GATITOS. SMOL cubre 123 idiomas y GATITOS cubre 170 idiomas. Esto mejora la cobertura de escrituras y familias de lenguas que están subrepresentadas en los datos paralelos web disponibles públicamente.

La mezcla final de ajuste fino supervisada también mantiene un 30 por ciento de instrucciones genéricas siguiendo los datos de la mezcla original de Gemma 3. Esto es importante. Sin él, el modelo se especializaría demasiado en traducción pura y perdería el comportamiento general de LLM, como seguir instrucciones o realizar razonamientos simples en contexto.

La capacitación utiliza las herramientas Kauldron SFT (ajuste fino supervisado) con el optimizador AdaFactor. La tasa de aprendizaje es 0,0001 con un tamaño de lote de 64 para 200.000 pasos. Todos los parámetros del modelo se actualizan excepto las incorporaciones de tokens, que están congeladas. La congelación de incrustaciones ayuda a preservar la calidad de la representación de idiomas y escrituras que no aparecen en los datos de ajuste fino supervisados.

Aprendizaje por refuerzo con un conjunto de recompensas centrado en la traducción

Después de un ajuste fino supervisado, TranslateGemma ejecuta una fase de aprendizaje por refuerzo sobre la misma combinación de datos de traducción. El objetivo de aprendizaje por refuerzo utiliza varios modelos de recompensa.

El conjunto de recompensas incluye:

MetricX 24 XXL QE, una métrica de regresión aprendida que se aproxima a las puntuaciones de MQM y se utiliza aquí en el modo de estimación de calidad sin referencia. Gemma AutoMQM QE, un predictor de errores a nivel de intervalo ajustado desde Gemma 3 27B IT en datos etiquetados MQM. Produce recompensas a nivel de token según el tipo y la gravedad del error. ChrF, una métrica de superposición de caracteres y gramos que compara la salida del modelo con referencias sintéticas y se reescala para que coincida con las otras recompensas. Un evaluador automático de naturalidad que utiliza el modelo de política como juez de LLM y produce penalizaciones a nivel de tramo para segmentos que no suenan como texto nativo. Un modelo de recompensa generalista de la configuración posterior al entrenamiento de Gemma 3 que mantiene intactas las habilidades de razonamiento y seguimiento de instrucciones.

TranslateGemma utiliza algoritmos de aprendizaje por refuerzo que combinan recompensas a nivel de secuencia con ventajas a nivel de token. Las recompensas de nivel abarcado de AutoMQM y Naturalness Autorater se adjuntan directamente a los tokens afectados. Estas ventajas simbólicas se agregan a las ventajas de secuencia calculadas desde la recompensa hasta el final y luego se normalizan por lotes. Esto mejora la asignación de créditos en comparación con el aprendizaje por refuerzo a nivel de secuencia pura.

Resultados comparativos en WMT24++

TranslateGemma se evalúa en el punto de referencia WMT24++ utilizando MetricX 24 y Comet22. MetricX es mejor y se correlaciona con los recuentos de errores de MQM. Comet22 es mejor y mide la adecuación y la fluidez.

https://arxiv.org/pdf/2601.09012

La tabla anterior del artículo de investigación resume los resultados de la evaluación centrada en el inglés en 55 pares de idiomas.

27B: La línea base de Gemma 3 tiene MetricX 4.04 y Comet22 83.1. TranslateGemma 27B alcanza MetricX 3.09 y Comet22 84.4. 12B: La línea base de Gemma 3 tiene MetricX 4,86 ​​y Comet22 81,6. TranslateGemma 12B alcanza MetricX 3.60 y Comet22 83.5. 4B: La línea base de Gemma 3 tiene MetricX 6,97 y Comet22 77,2. TranslateGemma 4B llega a MetricX 5.32 y Comet22 80.1.

El patrón clave es que TranslateGemma mejora la calidad para cada tamaño de modelo. Al mismo tiempo, la escala del modelo interactúa con la especialización. El modelo 12B TranslateGemma supera la línea base 27B Gemma 3. El modelo 4B TranslateGemma alcanza una calidad similar a la línea base 12B Gemma 3. Esto significa que un modelo especializado en traducción más pequeño puede reemplazar un modelo básico más grande para muchas cargas de trabajo de traducción automática.

https://arxiv.org/pdf/2601.09012

Un desglose del nivel de idioma en la tabla del apéndice anterior del artículo de investigación muestra que estas ganancias aparecen en los 55 pares de idiomas. Por ejemplo, MetricX mejora de 1,63 a 1,19 de inglés a alemán, de 2,54 a 1,88 de inglés a español, de 3,90 a 2,72 de inglés a hebreo y de 5,92 a 4,45 de inglés a suajili. Las mejoras también son importantes para casos más difíciles, como del inglés al lituano, del inglés al estonio y del inglés al islandés.

La evaluación humana en WMT25 con MQM confirma esta tendencia. TranslateGemma 27B generalmente produce puntuaciones MQM más bajas, es decir, menos errores ponderados, que Gemma 3 27B, con ganancias especialmente fuertes para direcciones de bajos recursos, como del inglés al marathi, del inglés al swahili y del checo al ucraniano. Hay dos excepciones notables. Para el objetivo alemán ambos sistemas están muy cerca. Para TranslateGemma del japonés al inglés se muestra una regresión causada principalmente por errores de entidades nombradas, aunque otras categorías de errores mejoran.

Traducción e interfaz multimodal para desarrolladores.

TranslateGemma hereda la pila de comprensión de imágenes de Gemma 3. El equipo de investigación evalúa la traducción de imágenes en el punto de referencia de Vistra. Seleccionan 264 imágenes y cada una contiene una sola instancia de texto. El modelo recibe solo la imagen más un mensaje que le pide que traduzca el texto de la imagen. No hay una entrada de cuadro delimitador independiente ni un paso de OCR explícito.

En esta configuración, TranslateGemma 27B mejora MetricX de 2,03 a 1,58 y Comet22 de 76,1 a 77,7. La variante 4B muestra ganancias menores pero positivas. El modelo 12B mejora MetricX pero tiene una puntuación Comet22 ligeramente más baja que la línea base. En general, el equipo de investigación concluye que TranslateGemma conserva la capacidad multimodal de Gemma 3 y que las mejoras en la traducción de texto se trasladan principalmente a la traducción de imágenes.

Conclusiones clave

TranslateGemma es una variante especializada de Gemma 3 para traducción: TranslateGemma es un conjunto de modelos de traducción abiertos derivados de Gemma 3, con tamaños de parámetros 4B, 12B y 27B, optimizados para 55 idiomas a través de un proceso de dos etapas, ajuste fino supervisado y luego aprendizaje reforzado con recompensas centradas en la traducción. El entrenamiento combina datos sintéticos de Gemini con corpus paralelos humanos: los modelos se ajustan con precisión a partir de una mezcla de datos paralelos sintéticos de alta calidad generados por Gemini y datos traducidos por humanos, lo que mejora la cobertura para idiomas con recursos elevados y bajos, al tiempo que preserva las capacidades generales de LLM de Gemma 3. El aprendizaje por refuerzo utiliza un conjunto de recompensas de estimación de calidad: después del ajuste fino supervisado, TranslateGemma aplica el aprendizaje por refuerzo impulsado por un conjunto de modelos de recompensa, incluidos MetricX QE y AutoMQM, que apuntan explícitamente a la calidad de la traducción. y fluidez en lugar de un comportamiento de chat genérico. Los modelos más pequeños igualan o superan las líneas base de Gemma 3 más grandes en WMT24++: en WMT24++ en 55 idiomas, todos los tamaños de TranslateGemma muestran mejoras consistentes con respecto a Gemma 3, con el modelo 12B superando la línea base 27B Gemma 3 y el modelo 4B alcanzando una calidad comparable a la línea base 12B, lo que reduce los requisitos de cómputo para un nivel de calidad de traducción determinado. Los modelos conservan capacidades multimodales y se lanzan como pesos abiertos: TranslateGemma mantiene las capacidades de traducción de texto de imágenes de Gemma 3 y mejora el rendimiento en el punto de referencia de traducción de imágenes de Vistra, y los pesos se lanzan como modelos abiertos en Hugging Face y Vertex AI, lo que permite la implementación local y en la nube.

Consulte el papel, los pesos de los modelos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.