El Instituto de Innovación Tecnológica TII-UAE acaba de lanzar Falcon 3: una familia de modelos de IA de código abierto con 30 nuevos puntos de control de modelos del 1B al 10B

Los avances en los modelos de lenguajes grandes (LLM) han creado oportunidades en todas las industrias, desde la automatización de la creación de contenido hasta la mejora de la investigación científica. Sin embargo, aún quedan desafíos importantes. Los modelos de alto rendimiento suelen ser propietarios, lo que restringe la transparencia y el acceso de investigadores y desarrolladores. Las alternativas de código abierto, aunque prometedoras, con frecuencia tienen dificultades para equilibrar la eficiencia computacional y el rendimiento a escala. Además, la diversidad lingüística limitada en muchos modelos reduce su usabilidad más amplia. Estos obstáculos resaltan la necesidad de LLM abiertos, eficientes y versátiles capaces de desempeñarse bien en una variedad de aplicaciones sin costos excesivos.

El Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos acaba de lanzar Falcon 3

El Instituto de Innovación Tecnológica (TII) de los Emiratos Árabes Unidos ha abordado estos desafíos con el lanzamiento de Halcón 3la versión más reciente de su serie LLM de código abierto. Falcon 3 presenta 30 puntos de control modelo que van desde 1B a 10B parámetros. Estos incluyen Modelos básicos y ajustados a las instrucciones.así como versiones cuantificadas como GPTQ-Int4, GPTQ-Int8, AWQ y un innovador Variante de 1,58 bits por eficiencia. Una adición notable es la inclusión de Modelos basados en Mambaque aprovechan los modelos de espacio de estados (SSM) para mejorar la velocidad y el rendimiento de la inferencia.

Al lanzar Falcon 3 bajo el Licencia TII Falcon-LLM 2.0TII continúa apoyando el uso comercial abierto, garantizando una amplia accesibilidad para desarrolladores y empresas. Los modelos también son compatibles con el Arquitectura de llamaslo que facilita a los desarrolladores la integración de Falcon 3 en los flujos de trabajo existentes sin gastos adicionales.

Detalles técnicos y beneficios clave

Los modelos Falcon 3 se entrenan en un conjunto de datos a gran escala de 14 billones de fichasun salto significativo con respecto a iteraciones anteriores. Esta amplia formación mejora la capacidad de los modelos para generalizar y realizar tareas de forma coherente. Falcon 3 admite un Longitud del contexto de 32K (8K para la variante 1B), lo que le permite manejar entradas más largas de manera eficiente, un beneficio crucial para tareas como resúmenes, procesamiento de documentos y aplicaciones basadas en chat.

Los modelos conservan una Arquitectura basada en transformadores con 40 bloques decodificadores y emplear atención de consultas agrupadas (GQA) presentando 12 cabezas de consulta. Estas opciones de diseño optimizan la eficiencia computacional y reducen la latencia durante la inferencia sin sacrificar la precisión. La introducción de Versiones cuantificadas de 1,58 bits permite que los modelos se ejecuten en dispositivos con recursos de hardware limitados, ofreciendo una solución práctica para implementaciones sensibles a los costos.

Falcon 3 también aborda la necesidad de capacidades multilingües al admitir cuatro idiomas: inglés, francés, español y portugués. Esta mejora garantiza que los modelos sean más inclusivos y versátiles, y atiendan a audiencias globales diversas.

Resultados y conocimientos

Los puntos de referencia de Falcon 3 reflejan su sólido desempeño en todos los conjuntos de datos de evaluación:

83,1% en GSM8K, que mide el razonamiento matemático y la capacidad de resolución de problemas.
78% en IFEval, mostrando sus capacidades de seguimiento de instrucciones.
71,6% en MMLU, destacando un sólido conocimiento general y comprensión en todos los dominios.

Estos resultados demuestran la competitividad de Falcon 3 con otros LLM líderes, mientras que su disponibilidad abierta lo distingue. La ampliación de los parámetros de 7B a 10B ha optimizado aún más el rendimiento, particularmente para tareas que requieren razonamiento y comprensión multitarea. Las versiones cuantificadas ofrecen capacidades similares al tiempo que reducen los requisitos de memoria, lo que las hace adecuadas para la implementación en entornos con recursos limitados.

Falcon 3 está disponible en abrazando la caralo que permite a los desarrolladores e investigadores experimentar, ajustar e implementar los modelos con facilidad. La compatibilidad con formatos como GGUF y GPTQ garantiza una integración fluida en cadenas de herramientas y flujos de trabajo existentes.

Conclusión

Falcon 3 representa un importante paso adelante para abordar las limitaciones de los LLM de código abierto. Con su gama de 30 puntos de control de modelos, incluidas variantes básicas, ajustadas a instrucciones, cuantificadas y basadas en Mamba, Falcon 3 ofrece flexibilidad para una variedad de casos de uso. El sólido desempeño del modelo en todos los puntos de referencia, combinado con su eficiencia y capacidades multilingües, lo convierte en un recurso valioso para desarrolladores e investigadores.

Al priorizar la accesibilidad y la usabilidad comercial, el Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos ha solidificado el papel de Falcon 3 como un LLM práctico y de alto rendimiento para aplicaciones del mundo real. A medida que la adopción de la IA continúa expandiéndose, Falcon 3 es un claro ejemplo de cómo los modelos abiertos, eficientes e inclusivos pueden impulsar la innovación y crear oportunidades más amplias en todas las industrias.

Verificar el Modelos abrazando la cara y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones incomparable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

El Instituto de Innovación Tecnológica TII-UAE acaba de lanzar Falcon 3: una familia de modelos de IA de código abierto con 30 nuevos puntos de control de modelos del 1B al 10B

ByEquipo de 7 minutos

El Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos acaba de lanzar Falcon 3

Detalles técnicos y beneficios clave

Resultados y conocimientos

Conclusión

By Equipo de 7 minutos

Related Post

Cómo diseñar un tiempo de ejecución de agente de estilo OpenHarness con herramientas, memoria, permisos, habilidades y coordinación de múltiples agentes

¿Su primera tarea como ingeniero de datos en una nueva empresa? Haga que la canalización ETL sea comprobable

Las ventanas de contexto no son memoria: lo que los desarrolladores de agentes de IA deben comprender

You missed

Los compradores de propiedades de lujo acuden en masa a España en busca de refugio ante la guerra y la agitación: Baleares ocupa el primer lugar

Exclusiva: “Shahid Kapoor debería dirigir una película” – Kriti Sanon

El ‘parásito de parásitos’ ha sido descubierto en los bosques tropicales de Borneo

El otro trabajo de pintura de Trump – The Atlantic