En el panorama en rápida evolución de los grandes modelos de lenguaje (LLM), la atención se ha centrado en gran medida en la arquitectura exclusiva de decodificador. Si bien estos modelos han demostrado capacidades impresionantes en una amplia gama de tareas de generación, la arquitectura clásica de codificador-decodificador, como T5 (el transformador de transferencia de texto a texto), sigue siendo una opción popular para muchas aplicaciones del mundo real. Los modelos de codificador-decodificador a menudo destacan en resumen, traducción, control de calidad y más debido a su alta eficiencia de inferencia, flexibilidad de diseño y representación de codificador más rica para comprender la entrada. Sin embargo, la poderosa arquitectura codificador-decodificador ha recibido poca atención relativa.
Hoy, revisamos esta arquitectura y presentamos T5Gemma, una nueva colección de LLM de codificador-decodificador desarrollado mediante la conversión de modelos solo decodificadores previamente entrenados en la arquitectura de codificador-decodificador mediante una técnica llamada adaptación. T5Gemma se basa en el marco Gemma 2, incluidos los modelos Gemma 2 2B y 9B adaptados, así como un conjunto de modelos de tamaño T5 recién entrenados (pequeño, base, grande y XL). Estamos entusiasmados de lanzar a la comunidad modelos T5Gemma previamente entrenados y ajustados con instrucciones para desbloquear nuevas oportunidades de investigación y desarrollo.
De sólo decodificador a codificador-decodificador
En T5Gemma, hacemos la siguiente pregunta: ¿podemos construir modelos de codificador-decodificador de primer nivel basados en modelos solo decodificadores previamente entrenados? Respondemos a esta pregunta explorando una técnica llamada adaptación de modelo. La idea central es inicializar los parámetros de un modelo de codificador-decodificador utilizando los pesos de un modelo de decodificador ya previamente entrenado y luego adaptarlos aún más mediante un entrenamiento previo basado en UL2 o PrefixLM.
Una descripción general de nuestro enfoque, que muestra cómo inicializamos un nuevo modelo de codificador-decodificador utilizando los parámetros de un modelo de solo decodificador previamente entrenado.
Este método de adaptación es muy flexible y permite combinaciones creativas de tamaños de modelos. Por ejemplo, podemos emparejar un codificador grande con un decodificador pequeño (por ejemplo, un codificador 9B con un decodificador 2B) para crear un modelo “desequilibrado”. Esto nos permite ajustar el equilibrio calidad-eficiencia para tareas específicas, como el resumen, donde una comprensión profunda de la entrada es más crítica que la complejidad de la salida generada.
Hacia una mejor relación calidad-eficiencia
¿Cómo funciona T5Gemma?
En nuestros experimentos, los modelos T5Gemma logran un rendimiento comparable o mejor que sus contrapartes Gemma solo con decodificador, casi dominando la frontera de Pareto de eficiencia de inferencia de calidad en varios puntos de referencia, como SuperGLUE, que mide la calidad de la representación aprendida.
Los modelos de codificador-decodificador ofrecen consistentemente un mejor rendimiento para un nivel determinado de cálculo de inferencia, liderando la frontera entre calidad y eficiencia en una variedad de puntos de referencia.
Esta ventaja de rendimiento no es sólo teórica; también se traduce en calidad y velocidad en el mundo real. Al medir la latencia real para GSM8K (razonamiento matemático), T5Gemma proporcionó una clara victoria. Por ejemplo, T5Gemma 9B-9B logra una mayor precisión que Gemma 2 9B pero con una latencia similar. Aún más impresionante, el T5Gemma 9B-2B ofrece un aumento significativo de la precisión con respecto al modelo 2B-2B, pero su latencia es casi idéntica a la del modelo Gemma 2 2B, mucho más pequeño. En última instancia, estos experimentos muestran que la adaptación del codificador-decodificador ofrece una forma flexible y poderosa de equilibrar la calidad y la velocidad de inferencia.
Desbloquear capacidades fundamentales y optimizadas
¿Podrían los LLM codificadores-decodificadores tener capacidades similares a las de los modelos solo decodificadores?
Sí, T5Gemma muestra capacidades prometedoras tanto antes como después del ajuste de instrucciones.
Después de un entrenamiento previo, T5Gemma logra avances impresionantes en tareas complejas que requieren razonamiento. Por ejemplo, T5Gemma 9B-9B obtiene una puntuación de más de 9 puntos más en GSM8K (razonamiento matemático) y 4 puntos más en DROP (comprensión de lectura) que el modelo Gemma 2 9B original. Este patrón demuestra que la arquitectura codificador-decodificador, cuando se inicializa mediante adaptación, tiene el potencial de crear un modelo fundamental más capaz y eficaz.
Resultados detallados para modelos previamente entrenados, que ilustran cómo los modelos adaptados obtienen ganancias significativas en varios puntos de referencia de razonamiento intensivo en comparación con Gemma 2 solo con decodificador.
Estas mejoras fundamentales del entrenamiento previo preparan el escenario para ganancias aún más dramáticas después del ajuste de la instrucción. Por ejemplo, al comparar Gemma 2 IT con T5Gemma IT, la brecha de rendimiento se amplía significativamente en todos los ámbitos. T5Gemma 2B-2B IT ve su puntaje MMLU aumentar en casi 12 puntos sobre el Gemma 2 2B, y su puntaje GSM8K aumenta del 58,0% al 70,7%. La arquitectura adaptada no sólo proporciona potencialmente un mejor punto de partida, sino que también responde más eficazmente al ajuste de instrucciones, lo que en última instancia conduce a un modelo final sustancialmente más capaz y útil.
Resultados detallados para modelos + RLHFed ajustados, que ilustran las capacidades del entrenamiento posterior para amplificar significativamente las ventajas de rendimiento de la arquitectura codificador-decodificador.
Explora nuestros modelos: Liberación de puntos de control T5Gemma
Estamos muy emocionados de presentar este nuevo método para crear modelos potentes de codificador-decodificador de uso general mediante la adaptación de LLM previamente entrenados solo para decodificadores como Gemma 2. Para ayudar a acelerar futuras investigaciones y permitir que la comunidad se base en este trabajo, estamos entusiasmados de lanzar un conjunto de nuestros puntos de control T5Gemma.
El lanzamiento incluye:
Múltiples tamaños: puntos de control para los modelos de tamaño T5 (pequeño, base, grande y XL), los modelos basados en Gemma 2 (2B y 9B), así como un modelo adicional entre T5 grande y T5 XL. Múltiples variantes: modelos preentrenados y ajustados por instrucciones. Configuraciones flexibles: un punto de control desequilibrado potente y eficiente 9B-2B para explorar las compensaciones entre el tamaño del codificador y el decodificador. Diferentes objetivos de capacitación: modelos capacitado con objetivos PrefixLM o UL2 para proporcionar rendimiento generativo o calidad de representación de última generación.
Esperamos que estos puntos de control proporcionen un recurso valioso para investigar la arquitectura, la eficiencia y el rendimiento del modelo.
Empezando con T5Gemma
Estamos ansiosos por ver lo que construyes con T5Gemma. Consulte los siguientes enlaces para obtener más información:
Conozca la investigación detrás de este proyecto leyendo el artículo. Explore las capacidades de los modelos o ajústelos para sus propios casos de uso con el cuaderno Colab.