La historia de los LLM de código abierto: mejores modelos base (segunda parte) | por Cameron R. Wolfe, Ph.D.

Cómo LLaMA, MPT, Falcon y LLaMA-2 ponen los LLM de código abierto en el mapa…

(Foto por Iñaki del Olmo en desempaquetar)

La investigación de código abierto sobre grandes modelos de lenguaje (LLM) es increíblemente valiosa, ya que tiene como objetivo democratizar una tecnología poderosa e influyente. Aunque los LLM de código abierto ahora se utilizan comúnmente y se estudian ampliamente, esta área de investigación enfrentó algunas luchas iniciales que fueron difíciles de superar. Es decir, los LLM de código abierto tuvieron un mal desempeño al principio y fueron muy criticados. En esta descripción general, estudiaremos una línea de investigación que cambió esta narrativa al poner a disposición de todos los LLM previamente capacitados de alto rendimiento. Dado que el entrenamiento previo de un modelo de lenguaje es muy costoso, los modelos que estudiaremos aquí son especialmente impactantes. Una vez creados y publicados estos modelos base de alto rendimiento, muchas personas podrían realizar investigaciones utilizando estos modelos con un costo adicional marginal.

“Las capacidades de los LLM son notables considerando la naturaleza aparentemente sencilla de la metodología de capacitación”. – de [14]

La serie actual. Esta descripción general es la segunda parte de una serie de tres partes sobre la historia de los LLM de código abierto. El primera parte en la serie se resumieron los intentos iniciales de crear LLM de código abierto. Aquí, estudiaremos los modelos base de código abierto más populares (es decir, modelos de lenguaje que han sido previamente entrenados pero no ajustados ni alineados) que están disponibles actualmente. La próxima vez veremos cómo se pueden ajustar o alinear estos modelos para crear una variedad de aplicaciones útiles.

En la primera parte de esta serie, vimos que los primeros días de investigación sobre LLM de código abierto dieron como resultado la propuesta de varios modelos base importantes, como OPT y BLOOM. Sin embargo, se consideró ampliamente que estos modelos tenían un rendimiento bastante deficiente en comparación con los modelos preentrenados de código cerrado (por ejemplo, GPT-3). ¿Cómo resolvemos esto? En primer lugar, debemos profundizar en el proceso de formación del LLM.

Canal de formación. Los LLM se capacitan en varios pasos, como se muestra en la siguiente figura. Primero, entrenamos previamente el modelo…

La historia de los LLM de código abierto: mejores modelos base (segunda parte) | por Cameron R. Wolfe, Ph.D. | noviembre de 2023

ByEquipo de 7 minutos

Cómo LLaMA, MPT, Falcon y LLaMA-2 ponen los LLM de código abierto en el mapa…

By Equipo de 7 minutos

Related Post

Jacob Andreas y Brett McGuire nombrados ganadores del premio Edgerton | Noticias del MIT

Qwen Team Open-Sources Qwen3.6-35B-A3B: un modelo de lenguaje de visión MoE disperso con parámetros activos 3B y capacidades de codificación agente

OpenAI lanza GPT-Rosalind: su primer modelo de inteligencia artificial para ciencias biológicas creado para acelerar el descubrimiento de fármacos y la investigación genómica

You missed

La Audiencia de Valencia anula la suspensión de la licencia de piso turístico

Los pájaros cantores revelan el lado oscuro de la producción de nuevas células cerebrales en la edad adulta

Ricard Farín se impone a Rosa Suriñach

Victorias en conservación: restauración de guardianes de praderas e historias de éxito de mamíferos en peligro de extinción