Por qué las instalaciones de paquetes son lentas (y cómo solucionarlo)

conoce la espera. Escribe un comando de instalación y observa cómo parpadea el cursor. El administrador de paquetes revisa su índice. Los segundos se estiran. Te preguntas si algo se rompió.

Este retraso tiene una causa específica: el exceso de metadatos. Muchos administradores de paquetes mantienen un índice monolítico de cada paquete, versión y dependencia disponible. A medida que los ecosistemas crecen, estos índices crecen con ellos. Conda-forge supera los 31.000 paquetes en múltiples plataformas y arquitecturas. Otros ecosistemas enfrentan desafíos de escala similar con cientos de miles de paquetes.

Cuando los administradores de paquetes usan índices monolíticos, su cliente descarga y analiza todo para cada operación. Obtienes metadatos de paquetes que nunca usarás. El problema se agrava: más paquetes significan índices más grandes, descargas más lentas, mayor consumo de memoria y tiempos de compilación impredecibles.

Esto no es exclusivo de ningún administrador de paquetes. Es un problema de escala que afecta a cualquier ecosistema de paquetes que sirva miles de paquetes a millones de usuarios.

La arquitectura de los índices de paquetes

Conda-forge, al igual que algunos administradores de paquetes, distribuye su índice como un único archivo. Este diseño tiene ventajas: el solucionador obtiene toda la información que necesita por adelantado en una sola solicitud, lo que permite una resolución de dependencia eficiente sin demoras de ida y vuelta. Cuando los ecosistemas eran pequeños, un índice de 5 MB se descargaba en segundos y se analizaba con una memoria mínima.

A escala, el diseño se desmorona.

Considere conda-forge, uno de los canales de paquetes comunitarios más grandes para Python científico. Su archivo repodata.json, que contiene metadatos para todos los paquetes disponibles, supera los 47 MB comprimidos (363 MB sin comprimir). Cada operación del entorno requiere analizar este archivo. Cuando cambia cualquier paquete en el canal, lo que sucede frecuentemente con las nuevas compilaciones, se debe volver a descargar el archivo completo. Una única versión nueva del paquete invalida todo el caché. Los usuarios vuelven a descargar más de 47 MB para obtener acceso a una actualización.

Las consecuencias son mensurables: tiempos de recuperación de varios segundos en conexiones rápidas, minutos en redes más lentas, picos de memoria al analizar el archivo JSON de 363 MB y canalizaciones de CI que dedican más tiempo a la resolución de dependencias que a las compilaciones reales.

Fragmentación: un enfoque diferente

La solución toma prestado de la arquitectura de la base de datos. En lugar de un índice monolítico, los metadatos se dividen en muchas partes pequeñas. Cada paquete obtiene su propio “fragmento” que contiene sólo sus metadatos. Los clientes van a buscar los fragmentos que necesitan e ignoran el resto.

Este patrón aparece en todos los sistemas distribuidos. La fragmentación de bases de datos divide los datos entre servidores. Las redes de entrega de contenido almacenan en caché los activos por región. Los motores de búsqueda distribuyen índices entre grupos. El principio es coherente: cuando una única estructura de datos se vuelve demasiado grande, divídala.

Aplicado a la gestión de paquetes, la fragmentación transforma la obtención de metadatos de “descargar todo, usar poco” a “descargar lo que necesitas, usarlo todo”.

La implementación funciona a través de un sistema de dos partes que se describe en el siguiente diagrama. Primero, un archivo de manifiesto liviano, llamado índice de fragmentos, enumera todos los paquetes disponibles y asigna cada nombre de paquete a un hash. Piense en un hash como una huella digital única generada a partir del contenido del archivo. Si cambia aunque sea un byte del archivo, obtendrá un hash completamente diferente.

Estructura de repodata fragmentados que muestra el índice del manifiesto y los archivos de fragmentos individuales. El pequeño manifiesto asigna los nombres de los paquetes a los hashes de fragmentos, lo que permite una búsqueda eficiente de archivos de metadatos de paquetes individuales. Imagen del autor.

Este hash se calcula a partir del contenido del archivo de fragmento comprimido, por lo que cada archivo de fragmento se identifica de forma única por su hash. Este manifiesto es pequeño, alrededor de 500 KB para el subdirectorio linux-64 de conda-forge que contiene más de 12.000 nombres de paquetes. Solo necesita actualización cuando se agregan o eliminan paquetes. En segundo lugar, los archivos de fragmentos individuales contienen los metadatos reales del paquete. Cada fragmento contiene todas las versiones de un único nombre de paquete, almacenado como un archivo comprimido independiente.

La idea clave es el almacenamiento dirigido a contenidos. Cada archivo fragmentado lleva el nombre del hash de su contenido comprimido. Si un paquete no ha cambiado, el contenido de su fragmento sigue siendo el mismo, por lo que el hash sigue siendo el mismo. Esto significa que los clientes pueden almacenar en caché los fragmentos indefinidamente sin buscar actualizaciones. No se requiere viaje de ida y vuelta al servidor.
Cuando solicita un paquete, el cliente realiza un recorrido de dependencia que refleja el siguiente diagrama. Obtiene el índice del fragmento para buscar el nombre del paquete y encuentra su hash correspondiente, luego usa ese hash para recuperar el archivo del fragmento específico. El fragmento contiene información de dependencia, que el cliente utiliza para luego recuperar el siguiente lote de fragmentos adicionales en paralelo.

Proceso de recuperación del cliente para NumPy mediante repositorios fragmentados. El flujo de trabajo muestra cómo conda recupera los metadatos del paquete y resuelve recursivamente las dependencias mediante la recuperación de fragmentos en paralelo. Imagen del autor.

Este proceso descubre solo los paquetes que podrían ser necesarios, normalmente entre 35 y 678 paquetes para instalaciones comunes, en lugar de descargar metadatos para todos los paquetes en todas las plataformas del canal. Su cliente conda solo descarga los metadatos que necesita para actualizar su entorno.

Medir el impacto

El ecosistema conda implementó recientemente repodatos fragmentados a través de CEP-16, una especificación comunitaria desarrollada en colaboración por ingenieros de prefix.dev, Anaconda, Quansight, un canal mantenido por voluntarios que aloja más de 31 000 paquetes creados por la comunidad independientemente de una sola empresa. Esto lo convierte en un campo de pruebas ideal para cambios de infraestructura que beneficien al ecosistema en general.

Los puntos de referencia cuentan una historia clara.

Para la recuperación y el análisis de metadatos, los repodata fragmentados ofrecen una mejora de velocidad 10 veces mayor. Las operaciones de caché en frío que antes tardaban 18 segundos se completan en menos de 2 segundos. La transferencia de red se reduce en un factor de 35. La instalación de Python anteriormente requería la descarga de más de 47 MB de metadatos. Con la fragmentación, descargas aproximadamente 2 MB. El uso máximo de memoria disminuye entre 15 y 17 veces, de más de 1,4 GB a menos de 100 MB.

El comportamiento de la caché también cambia. Con índices monolíticos, cualquier actualización de canal invalida todo su caché. Con la fragmentación, solo es necesario actualizar el fragmento del paquete afectado. Esto significa más visitas a la caché y menos descargas redundantes con el tiempo.

Compensaciones de diseño

La fragmentación introduce complejidad. Los clientes necesitan lógica para determinar qué fragmentos recuperar. Los servidores necesitan infraestructura para generar y servir miles de archivos pequeños en lugar de un archivo grande. La invalidación de la caché se vuelve más granular pero también más compleja.
La especificación CEP-16 aborda estas compensaciones con un enfoque de dos niveles. Un archivo de manifiesto liviano enumera todos los fragmentos disponibles y sus sumas de verificación. Los clientes primero descargan este manifiesto y luego obtienen solo los fragmentos de los paquetes que necesitan resolver. El almacenamiento en caché HTTP se encarga del resto. Los fragmentos sin cambios devuelven 304 respuestas. Los fragmentos modificados se descargan nuevos.

Este diseño mantiene la lógica del cliente simple mientras traslada la complejidad al servidor, donde se puede optimizar una vez y beneficiar a todos los usuarios. Para conda-forge, el equipo de infraestructura de Anaconda manejó este trabajo del lado del servidor, lo que significa que más de 31 000 mantenedores de paquetes y millones de usuarios se benefician sin cambiar sus flujos de trabajo.

Aplicaciones más amplias

El patrón se extiende más allá de conda-forge. Cualquier administrador de paquetes que utilice índices monolíticos enfrenta desafíos de escala similares. La idea clave es separar la capa de descubrimiento (qué paquetes existen) de la capa de resolución (qué metadatos necesito para mis dependencias específicas).

Diferentes ecosistemas han adoptado diferentes enfoques ante este problema. Algunos usan API por paquete donde los metadatos de cada paquete se obtienen por separado; esto evita descargar todo, pero puede generar muchas solicitudes HTTP secuenciales durante la resolución de dependencias. Los repodata fragmentados ofrecen un término medio: usted recupera solo los paquetes que necesita, pero puede recuperar por lotes las dependencias relacionadas en paralelo, lo que reduce tanto el ancho de banda como la sobrecarga de solicitudes.

Para los equipos que crean repositorios de paquetes internos, la lección es arquitectónica: diseñe su capa de metadatos para escalar independientemente del número de paquetes. Ya sea que elija API por paquete, índices fragmentados u otro enfoque, la alternativa es observar cómo aumentan los tiempos de compilación con cada paquete que agrega.

Pruébalo tú mismo

Pixi ya admite repodatos fragmentados con el canal conda-forge, que se incluye de forma predeterminada. Simplemente usa pixi normalmente y ya te estarás beneficiando.

Si usa conda con conda-forge, puede habilitar la compatibilidad con repodata fragmentados:

instalación de conda –name base ‘conda-libmamba-solver>=25.11.0’ configuración de conda –set plugins.use_sharded_repodata verdadero

La función está en versión beta para conda y los mantenedores de conda están recopilando comentarios antes de la disponibilidad general. Si encuentra problemas, el repositorio conda-libmamba-solver en GitHub es el lugar para informarlos.

Para todos los demás, la conclusión es más simple: cuando sus herramientas parezcan lentas, mire la capa de metadatos. Es posible que los paquetes en sí no sean el cuello de botella. El índice suele serlo.

El propietario de Towards Data Science, Insight Partners, también invierte en Anaconda. Como resultado, Anaconda recibe preferencia como colaborador.

Por qué las instalaciones de paquetes son lentas (y cómo solucionarlo)

ByEquipo de 7 minutos

La arquitectura de los índices de paquetes

Fragmentación: un enfoque diferente

Medir el impacto

Compensaciones de diseño

Aplicaciones más amplias

Pruébalo tú mismo

By Equipo de 7 minutos

Related Post

OpenAI lanza filtro de privacidad: un modelo de redacción de PII de código abierto de 1,500 millones de parámetros con 50 millones de parámetros activos

Conozca Talkie-1930: un LLM de peso abierto 13B capacitado en textos en inglés anteriores a 1931 para el razonamiento histórico y la investigación de generalización

¡Correlación no significa causalidad! ¿Pero qué significa?

You missed

La gente apuesta por los brotes de sarampión, y eso podría resultar útil

Los gobernadores tienen un plan para proteger las elecciones de mitad de período de Trump

Cómo el monitoreo robótico autónomo resolvió el colapso del hielo marino de la Antártida y el misterio de la estratificación de los océanos

La élite empresarial húngara se aleja de Orbán tras la victoria de Tisza