La historia de los LLM de código abierto: mejores modelos base (segunda parte) |  por Cameron R. Wolfe, Ph.D.  |  noviembre de 2023

Cómo LLaMA, MPT, Falcon y LLaMA-2 ponen los LLM de código abierto en el mapa…

(Foto por Iñaki del Olmo en desempaquetar)

La investigación de código abierto sobre grandes modelos de lenguaje (LLM) es increíblemente valiosa, ya que tiene como objetivo democratizar una tecnología poderosa e influyente. Aunque los LLM de código abierto ahora se utilizan comúnmente y se estudian ampliamente, esta área de investigación enfrentó algunas luchas iniciales que fueron difíciles de superar. Es decir, los LLM de código abierto tuvieron un mal desempeño al principio y fueron muy criticados. En esta descripción general, estudiaremos una línea de investigación que cambió esta narrativa al poner a disposición de todos los LLM previamente capacitados de alto rendimiento. Dado que el entrenamiento previo de un modelo de lenguaje es muy costoso, los modelos que estudiaremos aquí son especialmente impactantes. Una vez creados y publicados estos modelos base de alto rendimiento, muchas personas podrían realizar investigaciones utilizando estos modelos con un costo adicional marginal.

“Las capacidades de los LLM son notables considerando la naturaleza aparentemente sencilla de la metodología de capacitación”. – de [14]

La serie actual. Esta descripción general es la segunda parte de una serie de tres partes sobre la historia de los LLM de código abierto. El primera parte en la serie se resumieron los intentos iniciales de crear LLM de código abierto. Aquí, estudiaremos los modelos base de código abierto más populares (es decir, modelos de lenguaje que han sido previamente entrenados pero no ajustados ni alineados) que están disponibles actualmente. La próxima vez veremos cómo se pueden ajustar o alinear estos modelos para crear una variedad de aplicaciones útiles.

(de [10, 12, 14, 15])

En la primera parte de esta serie, vimos que los primeros días de investigación sobre LLM de código abierto dieron como resultado la propuesta de varios modelos base importantes, como OPT y BLOOM. Sin embargo, se consideró ampliamente que estos modelos tenían un rendimiento bastante deficiente en comparación con los modelos preentrenados de código cerrado (por ejemplo, GPT-3). ¿Cómo resolvemos esto? En primer lugar, debemos profundizar en el proceso de formación del LLM.

Canal de formación. Los LLM se capacitan en varios pasos, como se muestra en la siguiente figura. Primero, entrenamos previamente el modelo…