Screenshot 2024 01 30 At 7.39.26 Pm.png

Los modelos de lenguajes grandes (LLM) han logrado avances impresionantes en la generación de texto coherente para diversas actividades y dominios, incluida la corrección de errores gramaticales (GEC), la simplificación de texto, la paráfrasis y la transferencia de estilo. Una de las habilidades emergentes de los LLM es su capacidad para generalizar y realizar tareas que nunca antes habían visto. Para lograr esto, los LLM se ajustan a las instrucciones en un proceso de ajuste de instrucciones. Esto reduce la necesidad de ejemplares de pocas tomas a medida que los modelos se vuelven más competentes en la comprensión y el seguimiento de instrucciones.

Una de las mayores dificultades para los escritores es editar su trabajo para cumplir con los requisitos y limitaciones de su tarea. Esto puede resultar un desafío, incluso para autores experimentados. Para ayudar a superar esto, se pueden utilizar tareas comparativas de edición de texto para ajustar las capacidades de edición de texto de los modelos. Si bien estudios anteriores han intentado desarrollar modelos de edición de textos de propósito general utilizando LLM, su efectividad, rendimiento y usabilidad a menudo se ven limitados por factores como la indisponibilidad o la falta de conjuntos de datos específicos de tareas. Por lo tanto, ajustar las instrucciones es esencial para mejorar la calidad general del proceso de edición de texto.

Investigadores de Grammarly (vipul raheja y Dhruv Kumar) y la Universidad de Minnesota (Ryan Koo y Dongyeop Kang) presentan CoEdIT, un sistema de edición de texto basado en inteligencia artificial diseñado para brindar asistencia en escritura con una interfaz de lenguaje natural. CoEdIT se puede utilizar como asistente de escritura que puede agregar, eliminar o cambiar palabras, frases y oraciones. CoEdIT cumple con los criterios de edición sintácticos, semánticos y estilísticos con un rendimiento de última generación en varios puntos de referencia de edición de texto. El grupo de investigación ha demostrado que CoEdIT puede generalizarse aún más para realizar modificaciones en varias dimensiones en un solo turno, incluso para instrucciones invisibles, adyacentes y compuestas. Descubren que, al adherirse a las pautas del lenguaje natural, CoEdIT puede ayudar a los autores en muchas facetas del proceso de reescritura de textos.

El principal Las contribuciones del artículo son las siguientes:

  • El equipo de investigación logró un rendimiento de vanguardia en tres tareas de edición estilística (parafraseo, neutralización y transferencia de estilo de formalidad), además de GEC, simplificación de texto, fusión de oraciones y edición de texto iterativa.
  • El equipo de investigación descubrió que, tanto en evaluaciones manuales como automáticas, incluso su modelo más pequeño ajustado a instrucciones funciona mejor que otros LLM de edición de texto supervisado, ajustados a instrucciones y de propósito general con aproximadamente 60 veces más parámetros.
  • Sus datos y modelos están disponibles públicamente.
  • CoEdIT se generaliza eficazmente a trabajos nuevos y vecinos que no se notan durante el ajuste, y a instrucciones compuestas con múltiples descripciones de tareas.

Quieren responder las siguientes consultas de investigación:

  • Pregunta 1: ¿Puede CoEdIT seguir las pautas de edición de texto y proporcionar cambios de alta calidad para diversas tareas?
  • Pregunta 2: ¿Puede CoEdIT generalizarse para realizar ediciones de instrucciones de edición de texto novedosas?
  • Pregunta 3: ¿CoEdIT ayuda a los autores humanos a escribir de forma más eficaz y eficiente?

Primero, evalúan una línea de base sin modificaciones, en la que el resultado es solo una copia de la entrada original sin ningún cambio. Cuando se utiliza para tareas como GEC, donde la salida y la entrada del objetivo se superponen en su mayoría, este método funciona bastante bien. Además, evalúan los LLM de edición de textos actuales que deben adaptarse utilizando datos específicos de las instrucciones. En particular, comparan las principales alternativas de sus modelos FLAN-T5, los modelos T52, para comprender el impacto del ajuste fino de tareas específicas. Además, comparan sus modelos con IteraTeR y DELIteraTeR, dos modelos que han demostrado un rendimiento superior en diversas tareas de edición de texto.

Sus comparaciones con los LLM adaptados a la instrucción constituyen un subconjunto importante:

  • La principal comparación que hacen es con PEER, que se basa en la versión T5 LM-Adapted. Se comparan con PEER-EDIT (versiones 3B y 11B) ya que su trabajo tiene como objetivo mejorar la calidad de las revisiones.
  • La versión LM Adaptada de T5 sirve como punto de partida para T0, T0++ y Tk-Instruct, que luego se ajustan utilizando los conjuntos de datos PromptSource y Super-NaturalInstructions en ese orden.
  • También comparan InstructGPT, una forma de GPT3 perfeccionada mediante aprendizaje por refuerzo, con un enorme conjunto de datos de instrucciones y resultados escritos por humanos.
  • Alpaca es una versión ajustada a las instrucciones del modelo LLaMA-7B entrenado en 52000 instrucciones siguiendo las demostraciones proporcionadas por GPT-3.4.
  • GPT-3.5, a menudo conocido como ChatGPT, es una versión mejorada de InstructGPT diseñada para la conversación. Utilizan la API OpenAI para todas las actividades relacionadas con la inferencia.
  • GPT-3 también proporciona una API de edición de texto (GPT3-Edit), que es precisamente análoga a las tareas en las que entrenan a CoEdIT, ya que puede usarse para editar tareas en lugar de completarlas.
  • El modelo de lenguaje de propósito general de Meta AI, LLaMA, se entrenó únicamente utilizando datos que se hicieron accesibles al público. Utilizan el modelo 7B debido a limitaciones en el cálculo. A menos que se indique lo contrario, se utilizó una decodificación codiciosa para crear los resultados de todos los modelos.

Hacen comparaciones en dos entornos, de disparo cero y de pocos disparos, con LLM sin ajuste de instrucciones.

Tabla 1: Comparación de CoEdIT con diferentes líneas de base (a) Reemplace la línea de base T5-Large y la línea de base con los prefijos específicos de la tarea (, , etc.). Los modelos basados ​​en T5, las evaluaciones de tiro cero de LLM solo con decodificador, las evaluaciones de tiro cero de LLM ajustados por instrucción, las evaluaciones de pocos tiros de LLM previamente capacitados, los modelos de edición de texto SOTA y las variantes del modelo CoEdIT (nuestro trabajo) se encuentran entre los otros modelos. SARI es la puntuación inicial para cada tarea, con excepción de las tareas de estilo MRPC. GLEU, precisión de transferencia de formalidad (%) y EM son los segundos puntajes para Fluencia, GYAFC y WNC. La similitud semántica es la segunda puntuación del MRPC, mientras que Self-BLEU es la primera. Para cada conjunto de datos, los modelos de mejor rendimiento se muestran en cuadros. Los resultados indicados con un asterisco.

fueron publicados en estudios anteriores. (FS) significa evaluación de pocos disparos. La Tabla 2 contiene los resultados de conjuntos de datos adicionales.

La Tabla 1 responde a la pregunta de investigación 1 comparando el desempeño de CoEdIT con otros modelos en diversas tareas de edición de texto. Comienzan presentando aquí los resultados de los conjuntos de evaluación más conocidos y luego, en la Tabla 2, dan resultados adicionales (es decir, subtareas y otros conjuntos de datos). Los modelos se dividen en siete categorías. Mientras que el segundo grupo (b) consta de modelos basados ​​en T5 ajustados con instrucciones en tareas que no son de edición de texto, el primer grupo (a) consta de la línea base de copia y la línea base T5-Large ajustada usando ajuste de prefijo ( cada punto de datos tiene el prefijo etiquetas específicas de la tarea en lugar de instrucciones). Descubrieron que CoEdIT se desempeña significativamente mejor en todas las tareas que estos modelos. Los siguientes dos conjuntos (c, d) muestran varios LLM que se evaluaron en un escenario de tiro cero y cuyo tamaño varía entre 7 mil millones y 175 mil millones de parámetros. Los modelos del grupo (d) están sintonizados con instrucciones, mientras que los modelos del grupo (c) solo tienen decodificador.

Descubrieron que CoEdIT funciona mejor en la mayoría de las tareas que los modelos que eran muchas veces más grandes, como ChatGPT e InstructGPT, y mejor que todos los LLM similares a su tamaño de modelo (como Alpaca y LLaMA). Esto sugiere que, en lugar de ampliar el tamaño del modelo, sería mejor densificar el espacio de tarea/instrucción porque los modelos existentes de propósito general y adaptados a la instrucción no están preparados. Si bien los modelos basados ​​en Alpaca y T5 (Tk-Instruct, T0, T0++) han demostrado un gran rendimiento en el pasado en tareas de cero disparos, estos modelos funcionan peor que CoEdIT. Además, observan que para tareas más difíciles, como las que caen dentro de la categoría de intención de Estilo, los modelos solo decodificadores (como GPT-3 y LLaMA) repiten con frecuencia la entrada. Tabla 2:

Comparación de CoEdIT con diferentes líneas de base, divididas en 7 grupos: (a) T5-Large y una línea de base de copia que solo tiene el prefijo de etiquetas específicas de la tarea (, , etc.). (b) modelos basados ​​en T5; (c) LLM que simplemente decodifican datos; (d) LLM que ajustan datos; (e) evaluaciones únicas de grandes modelos previamente entrenados; (f) modelos de edición de texto SOTA; y (g) variantes del modelo CoEdIT (nuestra investigación). Las puntuaciones de SARI son las puntuaciones iniciales para cada tarea, con excepción de las pruebas de estilo STS y QQP. Las puntuaciones de similitud semántica y Self-BLEU constituyen las dos primeras puntuaciones para STS y QQP, respectivamente. Cuanto más alto es mejor para las puntuaciones marcadas con ↑ en el encabezado de la columna, mientras que más bajo es mejor para las marcadas con ↓. Los modelos con mayor rendimiento para cada conjunto de datos se indican en negrita. (FS) significa evaluación de unos pocos disparos.

Esto se debe a que los modelos repitieron la oración de entrada o produjeron una continuación que no tenía nada que ver con la tarea, lo que puede explicarse por su incapacidad para comprender la tarea solicitada. Posteriormente, en el grupo (e), evalúan los LLM en una configuración de unos pocos disparos. Realizan estos experimentos en una configuración de evaluación de 4 disparos. Se crearon entradas de ejemplo seleccionando aleatoriamente cuatro entradas del conjunto de datos de CoEdIT para cada trabajo, asegurando que cada conjunto de ejemplo encajara dentro de la ventana de entrada para cada modelo. El mensaje instructivo tiene la oración de entrada antepuesta, junto con su referencia actualizada correspondiente. Realizan evaluaciones breves de tres LLM ajustados por instrucciones (InstructGPT, ChatGPT y Alpaca) y LLM solo decodificadores (GPT-3).

Señalan que, excepto MRPC para GPT-3, proporcionar ejemplos explícitos mejora el rendimiento en todos los modelos para todas las tareas. Este podría ser el caso porque GPT-3 repite sus generaciones de manera similar, lo que lleva a una baja similitud semántica y una puntuación BLEU baja. Dado que las puntuaciones tienden a permanecer consistentes en todas las tareas, no ofrecen ningún resultado para GPT3-Edit en la situación de pocas oportunidades, lo que sugiere que las habilidades de aprendizaje en contexto de GPT3-Edit podrían necesitar ser más fuertes. En general, descubren que para la mayoría de las tareas, incluso su modelo más pequeño, de 770 millones de parámetros, puede competir con los LLM evaluados en una situación de pocos intentos.

El equipo de investigación contrasta sus modelos con modelos de edición de texto para tareas específicas como IteraTeR, DELIteraTeR y PEER en el último grupo (f). Debido a que IteraTeR y DELIteraTeR solo antepusieron instrucciones a las entradas y fueron entrenados con etiquetas específicas de tareas, su desempeño es significativamente peor que los puntajes de la investigación original. Además, no estaban preparados para seguir instrucciones; en cambio, fueron entrenados usando BART y Pegasus, que tienen objetivos de entrenamiento previo separados relacionados con el resumen. CoEdIT supera a PEER en promedio en todas las evaluaciones documentadas excepto en el punto de referencia IteraTeR. Dado que PEER utiliza Wikipedia como fuente de datos de edición instructiva, esto se debe principalmente a la diferencia en el ajuste fino de tareas específicas.


Si bien CoEdIT logra resultados de vanguardia en varios puntos de referencia de edición de texto, posee ciertas limitaciones en su metodología y técnicas de evaluación. Como la mayoría de los esfuerzos anteriores, el ajuste de tareas específicas se dirige principalmente a tareas de edición a nivel de oración. Aún no se ha determinado su eficacia en secuencias de texto mucho más largas y más adecuadas para las condiciones de edición del mundo real. Además, el objetivo principal de su sistema es realizar modificaciones de texto que no alteren el significado. Revisar laPapel . Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos enGorjeo . Unirsenuestro SubReddit de 36k+ ML , 41k+ comunidad de Facebook,Canal de discordia yLinkedIn Grarriba

. Si te gusta nuestro trabajo, te encantará nuestro

Boletin informativo.. No olvides unirte a nuestro


Canal de telegramas


Gracias al equipo de investigación gramatical por el artículo educativo/liderazgo intelectual. El equipo de Grammarly Research nos ha apoyado en este contenido/artículo.


‘Cree incrustaciones de datos en tiempo real con OpenAI y SingleStore Job Service’ (31 de enero de 2024)