K2 Table Of Tables.png

K2 es un modelo de lenguaje grande (LLM) de vanguardia desarrollado por LLM360 en colaboración con MBZUAI y Petuum. Este modelo, conocido como K2-65B, cuenta con 65 mil millones de parámetros y es totalmente reproducible, lo que significa que todos los artefactos, incluidos el código, los datos, los puntos de control del modelo y los resultados intermedios, son de código abierto y accesibles al público. Este nivel de transparencia tiene como objetivo desmitificar la receta de formación utilizada para modelos similares, como Llama 2 70B, y proporciona una visión clara del proceso de desarrollo y las métricas de rendimiento.

El desarrollo de K2 fue un esfuerzo de colaboración entre varias instituciones destacadas: MBZUAI, Petuum y LLM360. Esta colaboración aprovechó la experiencia y los recursos de estas organizaciones para crear un modelo de lenguaje de última generación que se destaca por su rendimiento y transparencia. El modelo está disponible bajo la licencia Apache 2.0, lo que promueve un uso generalizado y un mayor desarrollo por parte de la comunidad.

LLM360 ha proporcionado un conjunto sólido de evaluaciones para K2, que abarca puntos de referencia generales y específicos de dominio. Estas evaluaciones cubren conocimientos médicos, matemáticos y de codificación, lo que garantiza que el modelo funcione bien en diversas tareas y dominios. La Colección de evaluación y rendimiento de LLM360 y el proyecto K2 Weights and Biases documentan un análisis detallado del rendimiento de K2.

K2 se entrenó utilizando diversos conjuntos de datos para lograr resultados comparables a los del modelo Llama 2 70B. El proceso de capacitación implicó dos etapas, utilizando ampliamente conjuntos de datos como dm-math, PubMed-abstracts, uspto y otros, por un total de 1,3 billones de tokens. Esta combinación integral de datos garantizó que K2 desarrollara una amplia comprensión y capacidad en diversos temas e idiomas.

LLM360 ha puesto a disposición los puntos de control intermedios de K2, lo que permite a los investigadores y desarrolladores realizar un seguimiento del desarrollo y la mejora del modelo a lo largo del tiempo. Esto es parte de la naturaleza totalmente reproducible de K2, que proporciona transparencia y facilita una mayor investigación y desarrollo. También se ofrecen tutoriales para reproducir los procesos de preformación y ajuste, dirigidos a investigadores académicos y de la industria.

Además, LLM360 es un laboratorio de investigación abierto que permite la inteligencia general artificial (AGI) de propiedad comunitaria a través de la investigación y el desarrollo de modelos grandes de código abierto. Su objetivo es crear un ecosistema abierto con recursos computacionales equitativos, datos de alta calidad y una base de conocimientos técnicos fluida para garantizar el desarrollo ético de la AGI y el acceso universal. LLM360 tiene como objetivo empoderar a los innovadores mediante el avance de las capacidades de grandes modelos de lenguaje y fomentando un entorno colaborativo para la investigación y el desarrollo.

En conclusión, K2 by LLM360 ofrece transparencia, rendimiento y un marco de desarrollo sólido. A través de la colaboración de código abierto y una evaluación integral, K2 establece un nuevo estándar para el desarrollo de LLM, garantizando prácticas éticas y una amplia accesibilidad para futuras innovaciones en IA.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.