TII lanza Falcon 2-11B: el primer modelo de IA de la familia Falcon 2 entrenado en tokens 5.5T con un modelo de lenguaje de visión

El Instituto de Innovación Tecnológica (TII) en Abu Dhabi ha presentado Falcon, una familia de modelos de lenguaje de vanguardia disponible bajo la licencia Apache 2.0. Falcon-40B es el modelo inaugural “verdaderamente abierto”, que cuenta con capacidades a la par de muchas alternativas patentadas. Este desarrollo marca un avance significativo y ofrece muchas oportunidades tanto para profesionales como para entusiastas e industrias.

Halcón2-11B, elaborado por el TII, es un modelo de decodificador causal que cuenta con 11 mil millones de parámetros. Ha sido meticulosamente entrenado en un vasto corpus que supera los 5 billones de tokens, fusionando datos de RefinedWeb con corpus meticulosamente seleccionados. Se puede acceder a este modelo bajo la licencia TII Falcon 2.0, una licencia de software permisiva inspirada en Apache 2.0. En particular, la licencia incluye una política de uso aceptable, que fomenta la utilización responsable de las tecnologías de IA.

Falcon2-11B, un modelo de decodificador causal únicamente, está entrenado para predecir el siguiente token en una tarea de modelado de lenguaje causal. Se basa en la arquitectura GPT-3, pero incorpora incrustaciones posicionales rotativas, atención multiconsulta, FlashAttention-2 y bloques decodificadores de atención paralela/MLP, lo que lo distingue del modelo GPT-3 original.

La familia Falcon incluye los modelos Falcon-40B y Falcon-7B, y el primero sobresale en la tabla de clasificación Open LLM. Falcon-40B requiere ~90 GB de memoria GPU, aún menos que LLaMA-65B. Falcon-7B necesita solo ~15 GB, lo que permite inferencias accesibles y ajustes incluso en hardware de consumo. TII ofrece variantes de instrucciones optimizadas para tareas de tipo asistente. Ambos modelos se entrenan en vastos conjuntos de datos de tokens, predominantemente de RefinedWeb, con extractos disponibles públicamente. Emplean atención multiconsulta, lo que mejora la escalabilidad de la inferencia al reducir la sobrecarga de memoria. Este diseño facilita optimizaciones sólidas como el estado, lo que convierte a los modelos Falcon en competidores formidables en el panorama de los modelos de lenguaje.

La investigación aboga por el uso de grandes modelos de lenguaje como base para tareas especializadas como resúmenes y chatbots. Sin embargo, se recomienda precaución contra el uso irresponsable o nocivo sin una evaluación de riesgos exhaustiva. Falcon2-11B, entrenado en varios idiomas, puede no generalizar mucho más allá de ellos y puede contener sesgos de los datos web. Las recomendaciones incluyen ajustes para tareas específicas e implementación de salvaguardas para un uso de producción responsable.

En resumen, la introducción de Falcon por parte del Instituto de Innovación Tecnológica presenta un avance innovador en el campo de los modelos lingüísticos. Falcon-40B y Falcon-7B ofrecen capacidades notables, con Falcon-40B liderando la tabla de clasificación Open LLM. Falcon2-11B, con su arquitectura innovadora y amplia formación, enriquece aún más la familia Falcon. Si bien estos modelos tienen un inmenso potencial para diversas aplicaciones, su uso responsable es primordial. La vigilancia contra sesgos y riesgos, junto con un ajuste concienzudo para tareas específicas, garantiza su implementación ética y efectiva en todas las industrias. Por lo tanto, los modelos Falcon representan una frontera prometedora en la innovación en IA, preparada para remodelar numerosos dominios de manera responsable.


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.