¿Qué nos dice la arquitectura del transformador? | por Stephanie Shen | Jul, 2024
Imagen de narciso1 de Pixabay

El desempeño estelar de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) como ChatGPT ha sorprendido al mundo. El gran avance se logró gracias a la invención de la arquitectura Transformer, que es sorprendentemente simple y escalable. Todavía está construida con redes neuronales de aprendizaje profundo. La principal adición es el llamado mecanismo de “atención” que contextualiza cada token de palabra. Además, sus paralelismos sin precedentes dotan a los LLM de una escalabilidad masiva y, por lo tanto, de una precisión impresionante después del entrenamiento con miles de millones de parámetros.

La simplicidad que ha demostrado la arquitectura Transformer es, de hecho, comparable a la de la máquina de Turing. La diferencia es que la máquina de Turing controla lo que la máquina puede hacer en cada paso. El Transformer, sin embargo, es como una caja negra mágica que aprende de los datos de entrada masivos mediante optimizaciones de parámetros. Los investigadores y científicos siguen muy interesados ​​en descubrir su potencial y sus implicaciones teóricas para el estudio de la mente humana.

En este artículo, analizaremos primero las cuatro características principales de la arquitectura Transformer: incrustación de palabras, mecanismo de atención, predicción de palabras individuales y capacidades de generalización como la extensión multimodal y el aprendizaje transferido. La intención es centrarse en por qué la arquitectura es tan eficaz en lugar de en cómo construirla (para lo cual los lectores pueden encontrar muchos…