Profundización en el modelo LSTM-CRF | de Alexey Kravets

Con código PyTorch

En el campo en rápida evolución del procesamiento del lenguaje natural, los Transformers se han convertido en modelos dominantes, demostrando un rendimiento notable en una amplia gama de tareas de modelado de secuencias, incluido el etiquetado de partes del discurso, el reconocimiento de entidades nombradas y la fragmentación. Antes de la era de los Transformers, los campos aleatorios condicionales (CRF) eran la herramienta de referencia para el modelado de secuencias y específicamente los CRF de cadena lineal que modelan secuencias como gráficos dirigidos, mientras que los CRF en general se pueden usar en gráficos arbitrarios.

Este artículo se desglosará de la siguiente manera:

Introducción
Puntajes de emisiones y transición
Función de pérdida
Estimación eficiente de la función de partición mediante algoritmo directo
Algoritmo de Viterbi
Código LSTM-CRF completo
Inconvenientes y conclusiones

La implementación de los CRF en este artículo se basa en este excelente tutorial. Tenga en cuenta que definitivamente no es la implementación más eficiente que existe y también carece de capacidad de procesamiento por lotes; sin embargo, es relativamente simple de leer y comprender y debido a que el objetivo de este tutorial es comprender el funcionamiento interno de los CRF, es perfectamente adecuado para a nosotros.

En los problemas de etiquetado de secuencia, tratamos con una secuencia de elementos de datos de entrada, como las palabras dentro de una oración, donde cada elemento corresponde a una etiqueta o categoría específica. El objetivo principal es asignar correctamente la etiqueta adecuada a cada elemento individual. Dentro del modelo CRF-LSTM podemos identificar dos componentes clave para hacer esto: probabilidades de emisión y transición. Nota De hecho, nos ocuparemos de puntuaciones en el espacio logarítmico en lugar de probabilidades de estabilidad numérica:

Las puntuaciones de emisiones se relacionan con la probabilidad de observar una etiqueta particular para un elemento de datos determinado. En el contexto del reconocimiento de entidades nombradas, por ejemplo, cada palabra en una secuencia está afiliada a una de tres etiquetas: comienzo de una entidad (B), palabra intermedia de una entidad (I) o una palabra fuera de cualquier entidad (O). ). Las probabilidades de emisión cuantifican la probabilidad de que una palabra específica esté asociada con una etiqueta particular. Esto se expresa matemáticamente como P(y_i | x_i), donde y_i denota la etiqueta y x_i representa el…

Profundización en el modelo LSTM-CRF | de Alexey Kravets | octubre de 2023

ByEquipo de 7 minutos

Con código PyTorch

By Equipo de 7 minutos

Related Post

Pandas no irá a ninguna parte: por qué sigue siendo mi opción para la gestión de datos

Una guía de codificación que implementa flujos de trabajo de explicabilidad SHAP con comparaciones de explicadores, enmascaradores, interacciones, deriva y modelos de caja negra

Vercel Labs presenta Zero, un lenguaje de programación de sistemas diseñado para que los agentes de IA puedan leer, reparar y enviar programas nativos

You missed

Sala Supercar Club Marbella estrena « Euro Weekly News

Shellmaxxing se hará cargo del verano de 2026

Bebidas omega-3 diseñadas para mantener saludables a los astronautas en misiones al espacio profundo

Los ‘donantes’ del salón de baile de Trump – Daily Kos