Llama 3.1 lanzado: el nuevo modelo de inteligencia artificial de código abierto de Meta que puede ajustar, destilar e implementar en cualquier lugar y está disponible en 8B, 70B y 405B

Meta anunció el lanzamiento de Llama 3.1el modelo más capaz de la serie Llama. Esta última versión de la serie Llama, en particular el modelo 405B, representa un avance sustancial en las capacidades de inteligencia artificial de código abierto, lo que posiciona a Meta a la vanguardia de la innovación en inteligencia artificial.

Meta ha defendido durante mucho tiempo la IA de código abierto, una postura que se ve subrayada por la afirmación de Mark Zuckerberg de que el código abierto beneficia a los desarrolladores, a Meta y a la sociedad. Llama 3.1 encarna esta filosofía al ofrecer capacidades de última generación en un modelo de acceso abierto. El lanzamiento tiene como objetivo democratizar la IA, poniendo tecnología de vanguardia a disposición de diversos usuarios y aplicaciones.

El modelo Llama 3.1 405B se destaca por su excepcional flexibilidad, control y rendimiento, rivalizando incluso con los modelos de código cerrado más avanzados. Está diseñado para admitir diversas aplicaciones, incluida la generación de datos sintéticos y la destilación de modelos, lo que permite a la comunidad explorar nuevos flujos de trabajo e innovaciones. Con soporte para ocho idiomas y una longitud de contexto expandida de 128K, Llama 3.1 es versátil y robusto, y se adapta a diversos casos de uso, como resúmenes de texto de formato largo y agentes conversacionales multilingües.

El lanzamiento de Llama 3.1 por parte de Meta está respaldado por un ecosistema integral de socios, entre los que se incluyen AWS, NVIDIA, Databricks, Dell y Google Cloud, que ofrecen servicios para respaldar el modelo desde el primer día. Este enfoque colaborativo garantiza que los usuarios y desarrolladores tengan las herramientas y plataformas para aprovechar todo el potencial de Llama 3.1, lo que fomenta un entorno próspero para la innovación en IA.

Llama 3.1 presenta nuevas herramientas de seguridad y protección, como Llama Guard 3 y Prompt Guard. Estas funciones están diseñadas para ayudar a los desarrolladores a crear de manera responsable, lo que garantiza que las aplicaciones de IA sean seguras. El compromiso de Meta con el desarrollo responsable de la IA se refleja aún más en su solicitud de comentarios sobre la API Llama Stack, que tiene como objetivo estandarizar y facilitar la integración de terceros con los modelos de Llama.

El desarrollo de Llama 3.1 implicó una evaluación rigurosa en más de 150 conjuntos de datos de referencia, que abarcan varios idiomas y escenarios del mundo real. El modelo 405B demostró un rendimiento competitivo con los principales modelos de IA como GPT-4 y Claude 3.5 Sonnet, mostrando su conocimiento general, capacidad de dirección, matemáticas, uso de herramientas y capacidades de traducción multilingüe.

El entrenamiento del modelo Llama 3.1 405B fue monumental, ya que involucró más de 16 mil GPU H100 y procesó más de 15 billones de tokens. Para garantizar la eficiencia y la escalabilidad, metaoptimizamos la pila de entrenamiento, adoptando una arquitectura de modelo de transformador de solo decodificador estándar con procedimientos iterativos posteriores al entrenamiento. Estos procesos mejoraron la calidad de la generación de datos sintéticos y el rendimiento del modelo, estableciendo nuevos puntos de referencia para la IA de código abierto.

Para mejorar la utilidad del modelo y sus capacidades de seguimiento de instrucciones, Meta empleó un proceso de alineación de múltiples rondas que incluía ajuste fino supervisado (SFT), muestreo de rechazo (RS) y optimización de preferencia directa (DPO). Combinadas con la generación y el filtrado de datos sintéticos de alta calidad, estas técnicas permitieron a Meta producir un modelo que se destaca tanto en los puntos de referencia de contexto corto como en los escenarios de contexto extendido de 128K.

Meta concibe Llama 3.1 como parte de un sistema de IA más amplio que incluye varios componentes y herramientas para desarrolladores. Este enfoque de ecosistema permite la creación de agentes personalizados y nuevos comportamientos de agentes, respaldados por un sistema de referencia completo con aplicaciones de muestra y nuevos modelos de seguridad. El desarrollo en curso de Llama Stack tiene como objetivo estandarizar las interfaces para crear componentes de la cadena de herramientas de IA, promoviendo la interoperabilidad y la facilidad de uso.

En conclusión, la dedicación de Meta a la IA de código abierto está impulsada por la creencia en su potencial para estimular la innovación y distribuir el poder de manera más equitativa en toda la sociedad. La disponibilidad abierta de los pesos del modelo Llama permite a los desarrolladores personalizar, entrenar y ajustar los modelos para que se adapten a sus necesidades específicas, lo que fomenta una amplia gama de aplicaciones de IA. Entre los ejemplos de innovaciones impulsadas por la comunidad se incluyen compañeros de estudio de IA, asistentes de toma de decisiones médicas y herramientas de comunicación para el cuidado de la salud, todos ellos desarrollados utilizando modelos Llama anteriores.

Revisar la Detalles y Modelo. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

Llama 3.1 lanzado: el nuevo modelo de inteligencia artificial de código abierto de Meta que puede ajustar, destilar e implementar en cualquier lugar y está disponible en 8B, 70B y 405B

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Nous Research actualiza el agente Hermes con un modo pizarra en blanco que fija conjuntos de herramientas a través de platform_toolsets.cli ydisabled_toolsets

Cómo crear un canal de pronóstico con TimeCopilot utilizando modelos básicos y detección automatizada de anomalías

Yandex Open-Sources YaFF: un formato de cable de copia cero para Protobuf con velocidad de lectura cercana a la estructura

You missed

Cuánto dinero tiene la hija de Barack Obama – Hollywood Life

Un hipopótamo pigmeo recién nacido roba corazones en Berlín, es posible que su gato no ayude a aliviar el estrés y una ascidia podría ayudar a combatir el cáncer

Illa expresa su apoyo a Begoña Gómez y tacha de “claramente excesiva” la retirada de su pasaporte

La Pedrera propone planta solar desaladora – El Líder