Evaluación de la generación de texto en modelos de lenguaje grandes | de Mina Ghashami

Métricas para medir la brecha entre el texto neuronal y el texto humano

Recientemente, los grandes modelos de lenguaje han demostrado una tremenda capacidad para generar textos similares a los humanos. Existen muchas métricas para medir qué tan cerca o similar es un texto generado por modelos de lenguaje grandes al texto humano de referencia. De hecho, cerrar esta brecha es un área activa de investigación.

En esta publicación, analizamos dos métricas conocidas para evaluar automáticamente los textos generados por la máquina.

Considere que se le proporciona un texto de referencia generado por humanos y un texto generado por una máquina generado por un LLM. Para calcular la similitud semántica entre estos dos textos, BERTScore calcula la similitud de coseno por pares de incrustaciones de tokens. Vea la imagen a continuación:

Aquí el texto de referencia es “El clima está frío hoy” y el texto candidato que se genera por máquina es “Hoy hace mucho frío”. Si calculamos la similitud de n-gramas, estos dos textos tendrán una puntuación baja. Sin embargo, sabemos que son semánticamente muy similares. Entonces BERTScore calcula la incrustación contextual de cada token tanto en el texto de referencia como en el texto candidato. y basado en estos vectores de incrustación, calcula las similitudes de cosenos por pares.

Basándonos en las similitudes de cosenos por pares, podemos calcular la precisión, la recuperación y la puntuación F1. Para hacerlo de la siguiente manera:

Recuerde: obtenemos la similitud máxima del coseno para cada token en el texto de referencia y obtenemos su promedio
Precisión: obtenemos la máxima similitud de coseno para cada token en el texto candidato y obtenemos su promedio
Puntuación F1: la media armónica de precisión y recuperación

Puntuación BERT[1] También propongo una modificación a la puntuación anterior denominada como “ponderación de importancia”. En “ponderación de importancia”, considera que las palabras raras que son comunes entre dos frases son más…

Evaluación de la generación de texto en modelos de lenguaje grandes | de Mina Ghashami | enero de 2024

ByEquipo de 7 minutos

Métricas para medir la brecha entre el texto neuronal y el texto humano

By Equipo de 7 minutos

Related Post

Cómo construir un sistema de enrutamiento LLM económico con NadirClaw utilizando la clasificación de indicaciones locales y el cambio de modelo Gemini

OpenClaw vs Hermes Agent: Por qué el agente de mejora automática de Nous Research ahora lidera las clasificaciones globales de OpenRouter

NVIDIA AI acaba de lanzar cuda-oxide: un backend experimental del compilador Rust-to-CUDA que compila núcleos de GPU SIMT directamente en PTX

You missed

Cómo morirías realmente en el espacio: lo que la ciencia ficción hace bien (y mal) sobre las expiraciones extraterrestres

Ro Khanna hace que Trump se vuelva loco al aparecer en Fox News y denunciar la verdad

La Binter NightRun de Palma transformó la ciudad en un gran festival deportivo al aire libre « Euro Weekly News

Día de la Madre 2026: Kareena Kapoor Khan, Priyanka Chopra Jonas y más celebran a sus madres