OLLM es una biblioteca de pitón liviana construida sobre los transformadores de Huggingface y Pytorch y ejecuta transformadores de contexto grande en las GPU de NVIDIA al descargar agresivamente pesos y cache de KV para acelerar los SSD locales. El proyecto se dirige fuera de línea, cargas de trabajo de una sola GPU y evita explícitamente la cuantización, utilizando pesos FP16/BF16 con flashatención-2 y caché de KV respaldado por disco para mantener VRAM dentro de 8-10 GB mientras maneja hasta ~ 100k tokens de contexto.
Pero, ¿qué hay de nuevo?
(1) KV Cache lee/escribe que omitir MMAP para reducir el uso de RAM del host; (2) soporte de diskcache para QWEN3-NEXT-80B; (3) LLAMA-3 FLASHATENCIÓN-2 PARA ESTABILIDAD; y (4) reducciones de memoria GPT-oss a través de núcleos “con forma de flash” y MLP fragmentado. La tabla publicada por el mantenedor informa huellas de memoria/E/S de extremo a extremo en un RTX 3060 TI (8 GB):
QWEN3-NEXT-80B (BF16, 160 GB PESOS, 50K CTX) → ~ 7.5 GB VRAM + ~ 180 GB SSD; Rendimiento notable “≈ 1 tok/2 s”. GPT-OSS-20B (empacado BF16, 10k CTX) → ~ 7.3 GB VRAM + 15 GB SSD. Llama-3.1-8b (FP16, 100k CTX) → ~ 6.6 GB VRAM + 69 GB SSD.
Cómo funciona
OLLM transmite pesas de capa directamente desde SSD en la GPU, descarga la atención KV Cache de atención a SSD y opcionalmente descarga capas a CPU. Utiliza FlashAttention-2 con Softmax en línea para que la matriz de atención completa nunca se materialice, y fragmenta grandes proyecciones de MLP para acumular memoria máxima. Esto cambia el cuello de botella de VRAM a ancho de banda de almacenamiento y latencia, por lo que el proyecto OLLM enfatiza los SSD de clase NVME y KVIKIO/CUFILE (almacenamiento GPUDIRECT) para I/O de archivos de alto rendimiento.
Modelos compatibles y GPU
Fuera de la caja los ejemplos cubren Llama-3 (1B/3B/8B), GPT-OSS-20B y QWEN3-NEXT-80B. La biblioteca se dirige a Nvidia Ampere (RTX 30XX, Serie A), ADA (RTX 40xx, L4) y Hopper; QWEN3-NEXT requiere una construcción de transformadores de desarrollo (≥ 4.57.0.dev). En particular, QWEN3-NEXT-80B es un MOE disperso (80b total, ~ 3b activo) que los proveedores generalmente se posicionan para implementaciones multi-A100/H100; La afirmación de OLLM es que puede ejecutarlo fuera de línea en una sola GPU del consumidor pagando la multa de SSD y aceptando un bajo rendimiento. Esto contrasta con los documentos de VLLM, que sugieren servidores multi-GPU para la misma familia modelo.
Instalación y uso mínimo
El proyecto es licenciado en MIT y está disponible en PYPI (PIP Install OLLM), con una dependencia adicional de Kvikio-Cu {CUDA_VERSION} para E/S de disco de alta velocidad. Para los modelos QWEN3-Next, instale transformadores de GitHub. Un breve ejemplo en el ReadMe muestra inferencia (…). DiskCache (…) Cableado y generar (…) con una devolución de llamada de texto de transmisión. (Pypi actualmente enumera 0.4.1; el ReadMe hace referencia 0.4.2 Cambios).
Expectativas de rendimiento y compensaciones
Rendimiento: el mantenedor informa ~ 0.5 tok/s para QWEN3-NEXT-80B en un contexto de 50k en un RTX 3060 Ti, utilizado para análisis por lotes/fuera de línea, no para chat interactivo. La latencia de SSD domina. Presión de almacenamiento: los contextos largos requieren cachés de KV muy grandes; OLLM escribe estos a SSD para mantener VRAM plano. Esto refleja el trabajo de la industria más amplio en la descarga de KV (por ejemplo, NVIDIA DYNAMO/NIXL y las discusiones comunitarias), pero el enfoque aún está unido al almacenamiento y es específico de la carga de trabajo. Comprobación de realidad de hardware: ejecutar QWEN3-NEXT-80B “En el hardware del consumidor” es factible con el diseño centrado en el disco de OLLM, pero la inferencia típica de alto rendimiento para este modelo todavía espera servidores multi-GPU. Trate a OLLM como una ruta de ejecución para los pases de contexto grande, fuera de línea en lugar de un reemplazo de entrega para las pilas de servicio de producción como VLLM/TGI.
Final
OLLM presiona un punto de diseño claro: mantenga la precisión alta, empuje la memoria a SSD y haga contextos ultra largos viables en una sola GPU de 8 GB NVIDIA. No coincidirá con el rendimiento del centro de datos, pero para el análisis de documentos/registros fuera de línea, la revisión de cumplimiento o el resumen de contexto grande, es una forma pragmática de ejecutar modelos 8B-20B cómodamente e incluso avanzar a MOE-80B si puede tolerar ~ 100–200 GB de almacenamiento local rápido y generación de Tok/S sub-1.
Mira el repositorio de GitHub aquí. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.
🔥[Recommended Read] NVIDIA AI Open-Sources Vipe (motor de pose de video): una herramienta de anotación de video 3D potente y versátil para AI espacial