En este artículo, analizaremos las “Representaciones de codificador bidireccional a partir de transformadores” (BERT, por sus siglas en inglés), un modelo diseñado para comprender el lenguaje. Si bien BERT es similar a modelos como GPT, el objetivo de BERT es comprender el texto en lugar de generarlo. Esto resulta útil en diversas tareas, como calificar el grado de positividad de una reseña de un producto o predecir si la respuesta a una pregunta es correcta.
Antes de adentrarnos en BERT, analizaremos brevemente la arquitectura del transformador, que es la inspiración directa de BERT. Con esa comprensión, profundizaremos en BERT y analizaremos cómo se construye y se entrena para resolver problemas aprovechando una comprensión general del lenguaje. Por último, crearemos un modelo BERT nosotros mismos desde cero y lo utilizaremos para predecir si las reseñas de productos son positivas o negativas.
¿Para quién es útil esto? Cualquiera que quiera formarse una comprensión completa del estado del arte de la IA.
¿Qué tan avanzada es esta publicación? Las primeras partes de este artículo son accesibles para lectores de todos los niveles, mientras que las secciones posteriores, relativas a la implementación desde cero, son bastante avanzadas. Se proporcionan recursos complementarios según sea necesario.
Prerrequisitos: Recomiendo encarecidamente comprender las ideas fundamentales sobre…