Dominar la PNL: codificación Python en profundidad para modelos de aprendizaje profundo |  de Eligijus Bujokas |  octubre de 2023

Una guía paso a paso con explicaciones completas del código para la clasificación de texto utilizando el aprendizaje profundo en Python

Foto por Píxeles de ruta en desempaquetar

Este artículo surgió después de leer numerosos recursos de documentación y mirar videos en YouTube sobre datos textuales, clasificación, redes neuronales recurrentes y otros temas candentes sobre cómo desarrollar un proyecto de aprendizaje automático utilizando datos de texto. Gran parte de la información no es tan fácil de usar y algunas de las partes están confusas, por lo que quiero ahorrarle mucho tiempo al lector y arrojar luz sobre los conceptos más importantes en el uso de datos textuales en cualquier proyecto de aprendizaje automático.

El código de soporte para los ejemplos presentados aquí se puede encontrar en: https://github.com/Eligijus112/NLP-python

Los temas tratados en este artículo serán:

  • Convertir texto en secuencias
  • Convertir índices de secuencia en vectores incrustados
  • Explicación detallada de RNN
  • La función de pérdida para la clasificación.
  • Canalización completa de PNL usando Pytorch

PNL representa nortenatural lidioma PAGprocesamiento¹. Este es un tema enorme sobre cómo utilizar tanto el hardware como el software en tareas como:

  • Traducir un idioma a otro
  • Clasificación de texto
  • Resumen de texto
  • Predicción del próximo token
  • Reconocimiento de entidad nombrada

Y mucho, mucho más. En este artículo, quiero cubrir las técnicas más populares y familiarizar al lector con los conceptos mediante ejemplos simples y codificados.

Muchas tareas en PNL comienzan por tokenizar el texto².

La tokenización de texto es un proceso en el que dividimos el texto original en partes más pequeñas: fichas. Los tokens pueden ser caracteres, subpalabras, palabras o una combinación de los tres.

Considere la cadena:

“La PNL en Python es divertida y está muy bien documentada. ¡Empecemos!”

Usaré tokens a nivel de palabra porque la misma lógica se aplicaría también a la tokenización de nivel inferior.