¿Qué nos dice la arquitectura del transformador? | por Stephanie Shen

¿Qué nos dice la arquitectura del transformador? | por Stephanie Shen | Jul, 2024

El desempeño estelar de los modelos de lenguaje grandes (LLM, por sus siglas en inglés) como ChatGPT ha sorprendido al mundo. El gran avance se logró gracias a la invención de la arquitectura Transformer, que es sorprendentemente simple y escalable. Todavía está construida con redes neuronales de aprendizaje profundo. La principal adición es el llamado mecanismo de “atención” que contextualiza cada token de palabra. Además, sus paralelismos sin precedentes dotan a los LLM de una escalabilidad masiva y, por lo tanto, de una precisión impresionante después del entrenamiento con miles de millones de parámetros.

La simplicidad que ha demostrado la arquitectura Transformer es, de hecho, comparable a la de la máquina de Turing. La diferencia es que la máquina de Turing controla lo que la máquina puede hacer en cada paso. El Transformer, sin embargo, es como una caja negra mágica que aprende de los datos de entrada masivos mediante optimizaciones de parámetros. Los investigadores y científicos siguen muy interesados en descubrir su potencial y sus implicaciones teóricas para el estudio de la mente humana.

En este artículo, analizaremos primero las cuatro características principales de la arquitectura Transformer: incrustación de palabras, mecanismo de atención, predicción de palabras individuales y capacidades de generalización como la extensión multimodal y el aprendizaje transferido. La intención es centrarse en por qué la arquitectura es tan eficaz en lugar de en cómo construirla (para lo cual los lectores pueden encontrar muchos…

¿Qué nos dice la arquitectura del transformador? | por Stephanie Shen | Jul, 2024

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Cree un canal completo de evaluación y observabilidad de Langfuse para seguimiento, gestión rápida, puntuación y experimentos

NVIDIA AI lanza Gated DeltaNet-2: una capa de atención lineal que desacopla el borrado y la escritura en la regla delta

Microsoft Research lanza Webwright: un marco de agente web nativo de terminal que obtiene una puntuación del 60,1 % en Odysseys, frente al 33,5 % de la base GPT-5.4

You missed

¿Qué es el combustible E15? Por qué la gasolina con mayor contenido de etanol podría elevar los niveles de smog en verano

Miles de pétalos de rosas rojas caen desde la cúpula del Panteón de Roma « Euro Weekly News

Blog de chismes deportivos n.° 1 en el mundo

Los sueños épicos están dejando a la gente agotada y angustiada