0xmiajidxvj Tqtqa.jpeg
Foto de Simón Wiedensohler en Dejar de salpicar

Configure rápidamente las API de LLM con BentoML y Runpod

A menudo veo a científicos de datos interesados ​​en el desarrollo de LLMs en términos de arquitectura de modelos, técnicas de entrenamiento o recolección de datos. Sin embargo, he notado que muchas veces, más allá del aspecto teórico, muchas personas tienen problemas para presentar estos modelos de manera que puedan ser realmente utilizados por los usuarios.
En este breve tutorial, pensé en mostrar de una manera muy sencilla cómo se puede servir un LLM, específicamente llama-3, usando BentoML.

BentoML es una solución integral para el servicio de modelos de aprendizaje automático. Facilita que los equipos de ciencia de datos desarrollen puntos finales de servicio de modelos listos para producción, con las mejores prácticas de DevOps y optimización del rendimiento en cada etapa.

Necesitamos GPU

Como ya sabes, en el aprendizaje profundo es fundamental disponer del hardware adecuado. Especialmente en el caso de modelos muy grandes como los LLM, esto se vuelve aún más importante. Lamentablemente, no tengo ninguna GPU 😔
Por eso confío en proveedores externos, por lo que alquilo una de sus máquinas y trabajo allí. Elegí para este artículo trabajar en Pod de ejecución porque conozco sus servicios y me parece un precio asequible seguir este tutorial. Pero si tenéis GPU disponibles o queréis…