¿Cómo los grandes modelos de lenguaje están redefiniendo la compresión de datos y brindando información única sobre la escalabilidad del aprendizaje automático?  Investigadores de DeepMind presentan un nuevo paradigma de compresión

¿Esta respuesta fue mejor o peor? Mejor Peor Igual

Se ha dicho que la teoría de la información y el aprendizaje automático son “dos caras de la misma moneda” debido a su estrecha relación. Una relación exquisita es la similitud fundamental entre los modelos de datos probabilísticos y la compresión sin pérdidas. La teoría esencial que define este concepto es el teorema de codificación fuente, que establece que la longitud del mensaje predicha en bits de un codificador de entropía ideal es igual a la probabilidad log2 negativa del modelo estadístico. En otras palabras, disminuir la cantidad de bits necesarios para cada mensaje es comparable a aumentar la probabilidad log2. Las diferentes técnicas para lograr una compresión sin pérdidas con un modelo probabilístico incluyen la codificación de Huffman, la codificación aritmética y los sistemas numéricos asimétricos.

Figura 1 | La codificación aritmética de la secuencia ‘AIXI’ con un modelo probabilístico (lenguaje) P (ambos en azul) produce el código binario ‘0101001’ (en verde). Los datos se comprimen mediante codificación aritmética dando a los símbolos ciertos intervalos dependiendo de la probabilidad dada por P. Suaviza gradualmente estas pausas para producir bits comprimidos que sustituyen al mensaje original. Según los bits comprimidos entrantes, la codificación aritmética inicializa un intervalo durante la decodificación. Para reconstruir el mensaje original, hace coincidir iterativamente intervalos con símbolos utilizando las probabilidades proporcionadas por P.

La eficiencia total de la compresión depende de las capacidades del modelo probabilístico, ya que se sabe que la codificación aritmética es óptima en términos de longitud de codificación (Fig. 1). Además, los enormes Transformers previamente entrenados, también conocidos como modelos básicos, han demostrado recientemente un rendimiento excelente en una variedad de tareas de predicción y, por lo tanto, son candidatos atractivos para su uso con codificación aritmética. La compresión basada en transformadores con codificación aritmética ha generado resultados de vanguardia en entornos en línea y fuera de línea. La opción fuera de línea que consideran en su trabajo implica entrenar el modelo en un conjunto de datos externo antes de usarlo para comprimir un flujo de datos (quizás diferente). En el contexto en línea, un modelo inicializado pseudoaleatoriamente se entrena inmediatamente en el flujo de datos que se va a comprimir. Como resultado, la compresión fuera de línea utiliza un conjunto fijo de parámetros de modelo y se realiza en contexto.

Los transformadores son perfectamente adecuados para la reducción fuera de línea, ya que han demostrado excelentes capacidades de aprendizaje en contexto. A los transformadores se les enseña a comprimirse de manera efectiva, como se describirá en esta tarea. Por lo tanto, deben tener sólidas habilidades de aprendizaje contextual. La longitud del contexto, un factor crítico limitante de la compresión fuera de línea, determina la cantidad máxima de bytes que un modelo puede comprimir simultáneamente. Los transformadores requieren mucha computación y solo pueden comprimir una pequeña cantidad de datos (un “token” se programa con 2 o 3 bytes). Dado que muchas tareas de predicción difíciles (como el razonamiento algorítmico o la memoria a largo plazo) necesitan contextos ampliados, ampliar la duración del contexto de estos modelos es una cuestión importante que está recibiendo más atención. La visión de compresión en contexto arroja luz sobre cómo fallan los modelos básicos actuales. Los investigadores de Google DeepMind y Meta AI & Inria promueven el uso de la compresión para explorar el problema de predicción y evaluar qué tan bien los modelos grandes (fundamentales) comprimen los datos.

Realizan las siguientes aportaciones:

• Realizan investigaciones empíricas sobre la capacidad de compresión sin pérdidas de los modelos de cimentación. Para ello, exploran el papel de la codificación aritmética en la compresión de modelos predictivos y llaman la atención sobre la relación entre los dos campos de estudio.

• Demuestran que los modelos básicos con capacidades de aprendizaje en contexto, entrenados principalmente en texto, son compresores de propósito general. Por ejemplo, Chinchilla 70B supera a los compresores de dominios específicos como PNG (58,5%) o FLAC (30,3%), logrando tasas de compresión del 43,4% en parches ImageNet y del 16,4% en muestras de LibriSpeech.

• Presentan una nueva perspectiva sobre las leyes de escala al demostrar que la escala no es una solución mágica y que el tamaño del conjunto de datos establece un límite superior estricto en el tamaño del modelo en términos de rendimiento de compresión.

• Utilizan compresores como modelos generativos y utilizan la equivalencia de predicción de compresión para representar gráficamente el rendimiento del compresor subyacente.

• Muestran que la tokenización, que puede considerarse como una precompresión, no mejora, en promedio, el rendimiento de la compresión. En cambio, permite que los modelos aumenten el contenido de información en su entorno y normalmente se utiliza para mejorar el rendimiento de la predicción.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 30.000 ml, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.