Google presenta T5Gemma 2: modelos de codificador y decodificador con entradas multimodales a través de SigLIP y contexto de 128K

Google ha lanzado T5Gemma 2, una familia de puntos de control de transformador codificador-decodificador abiertos creados adaptando pesos previamente entrenados de Gemma 3 en un diseño de codificador-decodificador y luego continuando el entrenamiento previo con el objetivo UL2. La versión solo está preparada previamente, está destinada a que los desarrolladores se capaciten posteriormente para tareas específicas, y Google señala explícitamente que no está lanzando puntos de control de TI ni de capacitación posterior para esta entrega.

T5Gemma 2 se posiciona como una contraparte codificadora-decodificadora de Gemma 3 que mantiene los mismos componentes básicos de bajo nivel y luego agrega dos cambios estructurales destinados a la eficiencia de los modelos pequeños. Los modelos heredan las características de Gemma 3 que son importantes para la implementación, en particular la multimodalidad, un contexto largo de hasta 128 000 tokens y una amplia cobertura multilingüe, y el blog indica más de 140 idiomas.

https://arxiv.org/pdf/2512.14856

¿Qué lanzó realmente Google?

La versión incluye tres tamaños previamente entrenados, 270M-270M, 1B-1B y 4B-4B, donde la notación significa que el codificador y el decodificador son del mismo tamaño. El equipo de investigación informa totales aproximados, excluyendo el codificador de visión, alrededor de los parámetros 370M, 1.7B y 7B. La contabilidad multimodal enumera un codificador de visión de parámetros 417M, junto con los parámetros del codificador y decodificador divididos en componentes integrados y no integrados.

La adaptación, codificador-decodificador sin formación desde cero

T5Gemma 2 sigue la misma idea de adaptación introducida en T5Gemma: inicializa un modelo de codificador-decodificador desde un punto de control solo decodificador y luego adapta con UL2. En la figura anterior, el equipo de investigación muestra los parámetros del codificador y decodificador inicializados a partir del modelo de solo decodificador previamente entrenado, luego preentrenado con UL2, con imágenes convertidas primero por SigLIP en 256 tokens.

Esto es importante porque el codificador-decodificador divide la carga de trabajo, el codificador puede leer la entrada completa de forma bidireccional, mientras que el decodificador se centra en la generación autorregresiva. El equipo de investigación sostiene que esta separación puede ayudar a tareas de contexto prolongado en las que el modelo debe recuperar evidencia relevante de una gran cantidad de datos antes de generarse.

Dos cambios de eficiencia que son fáciles de pasar por alto pero que afectan a los modelos pequeños

En primer lugar, T5Gemma 2 utiliza incrustaciones de palabras vinculadas entre la incrustación de entrada del codificador, la incrustación de entrada del decodificador y la incrustación de salida del decodificador o incrustación softmax. Esto reduce la redundancia de parámetros y hace referencia a una ablación que muestra pocos cambios de calidad al tiempo que reduce los parámetros de incrustación.

En segundo lugar, introduce atención combinada en el decodificador. En lugar de subcapas separadas de autoatención y atención cruzada, el decodificador realiza una única operación de atención donde K y V se forman concatenando salidas del codificador y estados del decodificador, y el enmascaramiento preserva la visibilidad causal de los tokens del decodificador. Esto se relaciona con una inicialización más sencilla, porque reduce las diferencias entre el decodificador adaptado y la pila de decodificadores estilo Gemma original, e informa ahorros de parámetros con una pequeña caída promedio de la calidad en sus ablaciones.

Multimodalidad, la comprensión de la imagen es del lado del codificador, no del lado del decodificador

T5Gemma 2 es multimodal al reutilizar el codificador de visión de Gemma 3 y mantenerlo congelado durante el entrenamiento. Los tokens de visión siempre se envían al codificador y los tokens del codificador tienen visibilidad total entre sí en atención propia. Este es un diseño pragmático de codificador-decodificador, el codificador fusiona tokens de imagen con tokens de texto en representaciones contextuales, y el decodificador puede luego atender esas representaciones mientras genera texto.

En el lado de las herramientas, T5Gemma 2 se coloca debajo de una canalización de imagen-texto a texto, que coincide con el diseño de la investigación, entrada de imagen, entrada de texto y salida de texto. Ese ejemplo de canalización es la forma más rápida de validar la ruta multimodal de un extremo a otro, incluidas opciones de tipo d como bfloat16 y mapeo automático de dispositivos.

Contexto largo a 128K, lo que lo permite

Los investigadores de Google atribuyen la ventana de contexto de 128K al mecanismo de atención alternante local y global de Gemma 3. El equipo de Gemma 3 describe un patrón repetitivo de 5 a 1, 5 capas de atención de ventana deslizante local seguidas de 1 capa de atención global, con un tamaño de ventana local de 1024. Este diseño reduce el crecimiento de la caché KV en relación con la globalización de cada capa, que es una de las razones por las que el contexto largo se vuelve viable en espacios más pequeños.

En T5Gemma 2, el equipo de investigación también menciona la adopción de métodos de interpolación posicional para contextos largos, y entrenan previamente secuencias de hasta 16K de entrada emparejadas con salidas objetivo de 16K, luego evalúan el rendimiento de contexto largo de hasta 128K en puntos de referencia que incluyen RULER y MRCR. La tabla detallada de resultados del preentrenamiento incluye evaluaciones de 32K y 128K, que muestran los largos deltas de contexto que afirman sobre Gemma 3 en la misma escala.

Configuración de la capacitación y lo que implica “solo capacitación previa” para los usuarios

El equipo de investigación afirma que los modelos están preentrenados en tokens 2T y describe una configuración de entrenamiento que incluye un tamaño de lote de 4,2 millones de tokens, disminución de la tasa de aprendizaje del coseno con 100 pasos de calentamiento, recorte de gradiente global en 1,0 y promedio de puntos de control en los últimos 5 puntos de control.

Conclusiones clave

T5Gemma 2 es una familia de codificadores y decodificadores adaptada de Gemma 3 y continuada con UL2. Reutiliza los pesos previamente entrenados de Gemma 3 y luego aplica la misma receta de adaptación basada en UL2 utilizada en T5Gemma. Google lanzó solo puntos de control previamente entrenados; en esta entrega no se incluyen variantes post-entrenadas ni ajustadas con instrucciones, por lo que el uso posterior requiere su propia capacitación y evaluación posterior. La entrada multimodal es manejada por un codificador de visión SigLIP que genera 256 tokens de imágenes y permanece congelado, esos tokens de visión van al codificador, el decodificador genera texto. Dos cambios de eficiencia de parámetros son centrales: las incrustaciones de palabras vinculadas comparten codificadores, decodificadores e incrustaciones de salida, la atención fusionada unifica la atención propia del decodificador y la atención cruzada en un solo módulo. El contexto largo de hasta 128K está habilitado por el diseño de atención entrelazada de Gemma 3, una repetición de 5 capas de ventanas deslizantes locales con un tamaño de ventana de 1024 seguidas de 1 capa global, y T5Gemma 2 hereda este mecanismo.

Consulte el artículo, los detalles técnicos y el modelo de Hugging Face. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Soy graduado en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.

Google presenta T5Gemma 2: modelos de codificador y decodificador con entradas multimodales a través de SigLIP y contexto de 128K

ByEquipo de 7 minutos

¿Qué lanzó realmente Google?

La adaptación, codificador-decodificador sin formación desde cero

Dos cambios de eficiencia que son fáciles de pasar por alto pero que afectan a los modelos pequeños

Multimodalidad, la comprensión de la imagen es del lado del codificador, no del lado del decodificador

Contexto largo a 128K, lo que lo permite

Configuración de la capacitación y lo que implica “solo capacitación previa” para los usuarios

Conclusiones clave

By Equipo de 7 minutos

Related Post

El componente humano crucial en la informática y la IA | Noticias del MIT

Google DeepMind lanza los puntos de control QAT de Gemma 4: Q4_0 y un nuevo formato móvil que corta la memoria en el dispositivo

Pequeños datos, grandes mapas: entrenamiento de modelos de aprendizaje automático geoespaciales cuando las muestras son escasas

You missed

El componente humano crucial en la informática y la IA | Noticias del MIT

Se confirma en Texas el gusano carnívoro barrenador del nuevo mundo, que representa un riesgo para el ganado estadounidense por primera vez en décadas

Recapitulemos los contratos sin licitación más turbios de Trump hasta ahora

Los hoteles bajan los precios en España ante el estancamiento de la demanda en verano