Esta publicación de blog concluye nuestra serie sobre la capacitación de BERT desde cero. Para contexto y una comprensión completa, consulte Parte I, Parte IIy Parte III de la serie.
Cuando BERT irrumpió en escena en 2018, provocó un tsunami en el mundo del procesamiento del lenguaje natural (PNL). Muchos consideran que esto es el momento ImageNet propio de la PNL, estableciendo paralelismos con el cambio que las redes neuronales profundas trajeron a la visión por computadora y al campo más amplio del aprendizaje automático en 2012.
Cinco años después, la profecía se cumple. Los modelos de lenguaje grande (LLM, por sus siglas en inglés) basados en transformadores no son sólo el juguete nuevo y brillante; están remodelando el paisaje. Desde transformar la forma en que trabajamos hasta revolucionar la forma en que accedemos a la información, estos modelos son la tecnología central detrás de innumerables empresas emergentes que buscan aprovechar su potencial sin explotar.
Esta es la razón por la que decidí escribir esta serie de publicaciones de blog, sumergiéndome en el mundo de BERT y cómo puedes entrenar tu propio modelo desde cero. El punto no es solo hacer el trabajo; después de todo, puede encontrar fácilmente modelos BERT previamente entrenados en Hugging Face Hub. La verdadera magia radica en comprender el funcionamiento interno de este modelo innovador y aplicar ese conocimiento al entorno actual.
La primera publicación le sirvió como entrada y presentó los conceptos centrales, los objetivos y las aplicaciones potenciales de BERT. Incluso pasamos juntos por el proceso de ajuste, creando un sistema de respuesta a preguntas:
La segunda entrega actuó como una guía privilegiada para el reino de los tokenizadores, que a menudo se pasa por alto: desglosando su función, mostrando cómo convierten palabras en valores numéricos y guiándolo a través del proceso de entrenamiento de los suyos propios: