En un nuevo artículo sobre IA, los investigadores de CMU y Google redefinen los resultados del modelo de lenguaje: cómo retrasar las respuestas con tokens de pausa aumenta el rendimiento en las tareas de razonamiento y control de calidad

Los tokens se generan en rápida sucesión utilizando modelos de lenguaje causal basados ​​en transformadores. El modelo toma los K tokens anteriores y luego calcula iterativamente K vectores intermedios en cada capa oculta para producir el (K + 1)ésimo token. El módulo opera sobre los vectores de salida de la capa anterior, y cada vector en sí mismo es la salida de un módulo. A pesar de la complejidad de todo el procedimiento, se debe cumplir una restricción inusual: la cantidad de operaciones necesarias para determinar el siguiente token está limitada por la cantidad de tokens ya vistos.

Un estudio reciente realizado por la Universidad Carnegie Mellon y Google investigó la estrategia de agregar tokens falsos a la entrada de un modelo de solo decodificador para posponer su salida. En este trabajo, decidieron elegir un token de pausa (aprendible) y agregarlo a la entrada en una secuencia de una o más veces. Para obtener la respuesta del modelo después de que se haya visto el último token, simplemente ignoran las salidas coincidentes hasta entonces.

Es importante destacar que los investigadores piensan en insertar tales retrasos en la inferencia y durante el ajuste posterior y el preentrenamiento. No se puede saber ahora qué efecto podría tener este ajuste aparentemente pequeño en el mundo real. El retraso crea un canal computacional potencialmente “más amplio”, que el Transformador puede utilizar en su beneficio. Un resultado más simple podría ser que el modelo ignore la capacidad de los tokens de causar retrasos y continúe ejecutándose. Después de todo, ni los tokens en sí ni la pequeña cantidad de nuevos parámetros introducidos al incorporar un solo token son adecuados para codificar información adicional de los datos de entrenamiento. Estos tokens sin sentido pueden oscurecer señales útiles y debilitar el modelo.

El equipo llevó a cabo una evaluación empírica para comprender el resultado de introducir retrasos (añadidos) en todas las fases de entrenamiento e inferencia. Examinan el entrenamiento de pausa en un modelo de decodificador de parámetros 1B y 130M entrenado inicialmente en C4 (Raffel et al., 2019) y luego ajustado en nueve tareas posteriores que cubren respuesta a preguntas extractivas, razonamiento, comprensión general y recuerdo de hechos. Lo más significativo es que este método aumenta la puntuación de coincidencia exacta del modelo 1B en un 18% en la tarea de respuesta a preguntas extractivas de SQuAD. De manera similar, observaron un aumento del 8 % en la tarea de comprensión general de CommonSense QA y una ganancia del 1 % en la precisión en la tarea de razonamiento de GSM8k con respecto a la precisión del modelo estándar del 7,5 %.

Por otro lado, cuando los tokens se introducen solo durante la etapa final de ajuste (utilizando el modelo básico previamente entrenado), se observan mejoras solo en una pequeña fracción de los casos. El equipo también realizó una serie de ablaciones clave, que incluyen:

  1. Descubrir que agregar tokens es generalmente mejor que anteponerlos.
  2. Descubrir que existe una cantidad óptima de tokens para cualquier tarea posterior.
  3. Descubrir que disminuir la cantidad de tokens de tiempo de inferencia da como resultado una degradación gradual del rendimiento.

El equipo cree que el siguiente paso esencial sería desarrollar formas de hacer que los retrasos sean útiles directamente en un modelo normal previamente entrenado. Visualizan que se abrirán varias direcciones nuevas de investigación teórica y aplicada gracias a su trabajo que amplía el paradigma de la predicción retrasada del siguiente token.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.