Evaluación de la generación de texto en modelos de lenguaje grandes |  de Mina Ghashami |  enero de 2024

Métricas para medir la brecha entre el texto neuronal y el texto humano

Imagen de unsplash.com

Recientemente, los grandes modelos de lenguaje han demostrado una tremenda capacidad para generar textos similares a los humanos. Existen muchas métricas para medir qué tan cerca o similar es un texto generado por modelos de lenguaje grandes al texto humano de referencia. De hecho, cerrar esta brecha es un área activa de investigación.

En esta publicación, analizamos dos métricas conocidas para evaluar automáticamente los textos generados por la máquina.

Considere que se le proporciona un texto de referencia generado por humanos y un texto generado por una máquina generado por un LLM. Para calcular la similitud semántica entre estos dos textos, BERTScore calcula la similitud de coseno por pares de incrustaciones de tokens. Vea la imagen a continuación:

Imagen de [1]

Aquí el texto de referencia es “El clima está frío hoy” y el texto candidato que se genera por máquina es “Hoy hace mucho frío”. Si calculamos la similitud de n-gramas, estos dos textos tendrán una puntuación baja. Sin embargo, sabemos que son semánticamente muy similares. Entonces BERTScore calcula la incrustación contextual de cada token tanto en el texto de referencia como en el texto candidato. y basado en estos vectores de incrustación, calcula las similitudes de cosenos por pares.

Imagen de [1]

Basándonos en las similitudes de cosenos por pares, podemos calcular la precisión, la recuperación y la puntuación F1. Para hacerlo de la siguiente manera:

  • Recuerde: obtenemos la similitud máxima del coseno para cada token en el texto de referencia y obtenemos su promedio
  • Precisión: obtenemos la máxima similitud de coseno para cada token en el texto candidato y obtenemos su promedio
  • Puntuación F1: la media armónica de precisión y recuperación

Puntuación BERT[1] También propongo una modificación a la puntuación anterior denominada como “ponderación de importancia”. En “ponderación de importancia”, considera que las palabras raras que son comunes entre dos frases son más…