Codificación de posición contextual (CoPE): un nuevo método de codificación de posición que permite condicionar las posiciones según el contexto incrementando la posición solo en ciertos tokens determinados por el modelo

Las secuencias ordenadas, incluidos texto, audio y código, dependen de la información de posición para dar significado. Los modelos de lenguajes grandes (LLM), como la arquitectura Transformer, carecen de información de orden inherente y tratan las secuencias como conjuntos. La codificación de posición (PE) aborda esto asignando un vector de incrustación a cada posición, lo cual es crucial para la comprensión de los LLM. Los métodos de PE, incluidas las medidas absolutas y relativas, son parte integral de los LLM y se adaptan a varios métodos de tokenización. Sin embargo, la variabilidad de los tokens plantea desafíos para el direccionamiento preciso de posiciones en secuencias.

Inicialmente, los mecanismos de atención no requerían PE ya que se usaban con RNN. Memory Network introdujo PE junto con la atención, empleando vectores de incrustación que se pueden aprender para posiciones relativas. PE ganó fuerza con la arquitectura Transformer, donde se exploraron variantes de PE tanto absolutas como relativas. Siguieron varias modificaciones, como términos de sesgo simplificados y CoPE, que contextualiza la medición de la posición. A diferencia de los RNN, CoPE permite la paralelización en el entrenamiento de Transformer, lo que mejora la eficiencia. Algunos trabajos de investigación favorecen la PE relativa en LLM recientes, y RoPE ofrece una implementación sin modificaciones.

Investigadores del Meta presentes Codificación de posición contextual (CoPE), COPE determina las posiciones de los tokens en función de sus vectores de contexto. Al calcular los valores de puerta para tokens anteriores utilizando sus vectores clave en relación con el token actual, CoPE establece valores posicionales fraccionarios, lo que requiere la interpolación de incrustaciones asignadas para el cálculo. Estas incorporaciones mejoran la operación de atención al incorporar información posicional. CoPE sobresale en tareas de juguetes como contar y copiar selectivamente, superando los métodos de PE basados ​​en tokens, particularmente en escenarios fuera de dominio. En tareas de modelado de lenguaje utilizando texto y código de Wikipedia, CoPE demuestra consistentemente un rendimiento superior, destacando su aplicabilidad en el mundo real.

En CoPE, la medición de la posición depende del contexto y está determinada por los valores de puerta calculados para cada par de claves de consulta, lo que permite la diferenciación mediante retropropagación. Los valores de posición se calculan agregando valores de puerta entre los tokens actuales y de destino. Generaliza el PE relativo al acomodar varios conceptos posicionales, no solo recuentos de tokens. A diferencia de las posiciones de los tokens, los valores de CoPE pueden ser fraccionarios, lo que requiere una interpolación entre incrustaciones de enteros para las incrustaciones de posiciones. La eficacia de CoPE se demuestra en tareas de juguetes y aplicaciones del mundo real, lo que demuestra su superioridad sobre los métodos de PE basados ​​en tokens. En los LLM de última generación, las codificaciones de posición estándar presentan fallas, especialmente en tareas que requieren un conteo preciso, lo que indica la necesidad de técnicas de direccionamiento de posición más avanzadas como CoPE.

La PE absoluta muestra el rendimiento más pobre entre los métodos de PE comparados. CoPE supera a la PE relativa y muestra una mejora adicional cuando se combina con ella, lo que subraya la eficacia de CoPE en tareas generales de modelado del lenguaje. La evaluación de CoPE en datos de código revela su superioridad sobre Absolute PE y RoPE, con mejoras de perplejidad del 17 % y 5 %, respectivamente. Si bien la combinación de incorporaciones de RoPE y CoPE produce mejoras con respecto a RoPE por sí solo, no supera el rendimiento de CoPE por sí solo. Esto subraya la eficacia de CoPE a la hora de utilizar el contexto para mejorar el modelado, particularmente en dominios de datos estructurados como el código.

El artículo presenta CoPE, un método robusto de codificación de posición que mide la posición contextualmente, divergiendo de los paradigmas basados ​​en tokens. Este enfoque ofrece una mayor flexibilidad en el direccionamiento posicional, lo que genera mejoras de rendimiento en diversas tareas en dominios de texto y código. El potencial de CoPE se extiende a dominios como el video y la voz, donde la posición simbólica podría ser menos adecuada. Las investigaciones futuras podrían explorar el entrenamiento de modelos más grandes con CoPE y evaluar su desempeño en tareas posteriores para evaluar más a fondo su eficacia y aplicabilidad.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.