Muchos éxitos recientes en modelos de lenguaje (LM) se han logrado dentro de un “paradigma estático”, donde la atención se centra en mejorar el rendimiento en los puntos de referencia que se crean sin considerar el aspecto temporal de los datos. Por ejemplo, responder preguntas sobre eventos que el modelo podría conocer durante el entrenamiento o evaluar texto submuestreado del mismo período que los datos de entrenamiento. Sin embargo, nuestro lenguaje y conocimiento son dinámicos y están en constante evolución. Por lo tanto, para permitir una evaluación más realista de los modelos de respuesta a preguntas para el próximo salto en el rendimiento, es esencial garantizar que sean flexibles y sólidos cuando encuentren datos nuevos e invisibles.
En 2021, lanzamos Cuidado con la brecha: evaluación de la generalización temporal en modelos de lenguaje neuronal y el puntos de referencia de modelado de lenguaje dinámico para que WMT y arXiv faciliten la evaluación del modelo de lenguaje que tenga en cuenta la dinámica temporal. En este artículo, destacamos los problemas que enfrentan los grandes LM de última generación con la generalización temporal y descubrimos que los tokens intensivos en conocimiento sufren un impacto considerable en el rendimiento.
Hoy publicamos dos artículos y un nuevo punto de referencia que avanza aún más la investigación sobre este tema. En StreamingQA: un punto de referencia para la adaptación a nuevos conocimientos a lo largo del tiempo en modelos de respuesta a preguntasestudiamos la tarea posterior de responder preguntas en nuestro punto de referencia recientemente propuesto, StreamingQA: queremos comprender cómo los modelos semiparamétricos de respuesta a preguntas paramétricos y con recuperación aumentada se adaptan a la nueva información para responder preguntas sobre nuevos eventos. En Modelos de lenguaje aumentados en Internet mediante indicaciones breves para responder preguntas en dominio abierto, exploramos el poder de combinar un modelo de lenguaje grande impulsado por algunas tomas junto con la Búsqueda de Google como componente de recuperación. Al hacerlo, nuestro objetivo es mejorar la factibilidad del modelo, al tiempo que nos aseguramos de que tenga acceso a información actualizada para responder un conjunto diverso de preguntas.
StreamingQA: un punto de referencia para la adaptación a nuevos conocimientos a lo largo del tiempo en modelos de respuesta a preguntas
El conocimiento y la comprensión del lenguaje de los modelos evaluados mediante preguntas y respuestas (QA) se han estudiado comúnmente en instantáneas estáticas de conocimiento, como Wikipedia. Para estudiar cómo los modelos de control de calidad semiparamétricos y sus LM paramétricos subyacentes se adaptan al conocimiento en evolución, construimos el nuevo punto de referencia a gran escala, StreamingQA, con preguntas escritas por humanos y generadas automáticamente en una fecha determinada, para ser respondidas por 14 años de experiencia. artículos de noticias con marca de tiempo (ver Figura 2). Mostramos que los modelos paramétricos se pueden actualizar sin un reentrenamiento completo, evitando al mismo tiempo un olvido catastrófico. Para los modelos semiparamétricos, agregar nuevos artículos al espacio de búsqueda permite una rápida adaptación; sin embargo, los modelos con un LM subyacente desactualizado tienen un rendimiento inferior a aquellos con un LM reentrenado.
Modelos de lenguaje aumentados en Internet mediante indicaciones breves para respuestas a preguntas en dominio abierto
Nuestro objetivo es aprovechar las capacidades únicas de pocas oportunidades que ofrecen los modelos de lenguaje a gran escala para superar algunos de sus desafíos, con respecto a la conexión con información objetiva y actualizada. Motivados por LM semiparamétricos, que basan sus decisiones en evidencia recuperada externamente, utilizamos indicaciones breves para aprender a condicionar los LM a la información devuelta desde la web mediante la Búsqueda de Google, una fuente de conocimiento amplia y constantemente actualizada. Nuestro enfoque no implica ajustes ni aprendizaje de parámetros adicionales, por lo que es aplicable a prácticamente cualquier modelo de lenguaje. Y, de hecho, encontramos que los LM condicionados en la web superan el rendimiento de los modelos de libro cerrado de tamaño similar, o incluso mayor, en la respuesta a preguntas de dominio abierto.