PRIME Intellect lanza INTELLECT-1 (Instruct + Base): el primer modelo de lenguaje de parámetros 10B entrenado de forma colaborativa en todo el mundo

En los últimos años, la evolución de la inteligencia artificial ha generado modelos de lenguajes grandes (LLM) cada vez más sofisticados. Sin embargo, entrenar estos modelos sigue siendo un desafío complejo debido a sus inmensos requisitos computacionales. Tradicionalmente, entrenar estos modelos sólo ha sido posible en entornos centralizados con interconexiones de gran ancho de banda, generalmente dentro de grandes centros de datos controlados por unos pocos gigantes tecnológicos. Este paradigma centralizado limita la accesibilidad, ya que requiere importantes recursos que sólo unas pocas organizaciones pueden permitirse. Estas restricciones han generado preocupaciones sobre el acceso equitativo a tecnologías avanzadas de inteligencia artificial y su posible monopolización. Para abordar estas barreras, los investigadores han comenzado a explorar enfoques de capacitación colaborativos y descentralizados. El desafío radica en superar problemas como el bajo ancho de banda entre nodos y la disponibilidad impredecible de los nodos, que hacen que la capacitación descentralizada sea más compleja que su contraparte centralizada.

La liberación de INTELLECT-1

PRIME Intellect ha lanzado INTELLECT-1 (Instruct + Base), el primer modelo de lenguaje de 10 mil millones de parámetros entrenado de forma colaborativa en todo el mundo. Este modelo demuestra la viabilidad de utilizar recursos descentralizados impulsados por la comunidad para la formación de LLM avanzados. PRIME Intellect utilizó su Marco PRINCIPALdiseñado específicamente para superar los desafíos de la capacitación descentralizada, incluida la falta de confiabilidad de la red y la adición o eliminación dinámica de nodos informáticos. El marco utilizó hasta 112 GPU H100 en tres continentes y logró una tasa de utilización informática de hasta el 96 % en condiciones óptimas, lo que demuestra que la capacitación descentralizada puede igualar los niveles de rendimiento de las configuraciones tradicionales. Este enfoque amplía el acceso a modelos de IA de alto rendimiento y fomenta un entorno de investigación colaborativo donde los contribuyentes de todo el mundo pueden participar en el desarrollo de la IA.

Detalles técnicos

Según el comunicado oficial, INTELLECT-1 se desarrolló utilizando una combinación diversa de conjuntos de datos de alta calidad, incluidos datos disponibles públicamente y conjuntos de datos patentados seleccionados por PRIME Intellect y sus socios. El modelo se entrenó en 1 billón de tokens, lo que garantiza que tenga una amplia comprensión de varios dominios. El proceso de capacitación involucró 14 nodos simultáneos distribuidos en tres continentes, con patrocinadores informáticos uniéndose y saliendo dinámicamente según fuera necesario. Este enfoque dinámico permitió una flexibilidad significativa, que es crucial para escenarios de implementación del mundo real. PRIME Intellect también garantizó la estabilidad de la capacitación a través de innovaciones como puntos de control en vivo y comunicación tolerante a fallas, habilitadas por el marco PRIME.

Técnicamente, la capacitación de INTELLECT-1 fue posible gracias a innovaciones en el marco PRIME, que abordó las limitaciones de los nodos distribuidos geográficamente. PRIME presenta ElasticDeviceMesh, una abstracción que gestiona tanto la comunicación a través de Internet como el intercambio de datos local y tolerante a fallas entre nodos. Se implementaron enfoques de capacitación híbridos que combinan técnicas de datos paralelos completamente fragmentados (FSDP) para una eficiencia dentro del nodo y algoritmos de baja comunicación distribuida (DiLoCo) para una comunicación mínima entre nodos. Para minimizar los requisitos de ancho de banda, el marco PRIME incluyó una estrategia de cuantificación de 8 bits para transferencias de gradiente, lo que redujo la carga útil de comunicación hasta 400 veces en comparación con el entrenamiento tradicional de datos en paralelo. La tolerancia a fallos se gestionó mediante la gestión dinámica de nodos, lo que permitió que nuevos nodos se unieran sin problemas y los nodos fallidos se eliminaran con una interrupción mínima. Estas innovaciones facilitaron una formación eficaz de modelos descentralizados manteniendo al mismo tiempo una alta eficiencia computacional.

Resultados e implicaciones de los puntos de referencia

El lanzamiento de INTELLECT-1 marca un importante paso adelante para hacer que la formación LLM sea accesible más allá de las grandes corporaciones. Los resultados del proceso de capacitación revelan un modelo que compite con modelos de tamaño similar entrenados en entornos centralizados. Por ejemplo, INTELLECT-1 logró una precisión del 37,5 % en el punto de referencia MMLU y del 72,26 % en HellaSwag. Además, INTELLECT-1 superó a varios otros modelos de código abierto en puntos de referencia específicos, incluido un 65,82 % en el desafío WinoGrande. Aunque estas cifras están ligeramente por detrás de algunos modelos centralizados de última generación, los resultados son notables dados los desafíos de la capacitación descentralizada. Más importante aún, este experimento sienta un precedente para colaboraciones a gran escala y allana el camino para futuros desarrollos en proyectos de IA liderados por la comunidad. La red global de 30 contribuyentes informáticos independientes no solo garantizó el éxito del proyecto sino que también destacó la escalabilidad de dichos esfuerzos. A medida que los modelos descentralizados crezcan en escala y las estrategias de comunicación mejoren, es probable que la brecha entre la capacitación centralizada y descentralizada continúe cerrándose.

Conclusión

El lanzamiento de INTELLECT-1 representa un hito en la búsqueda de una investigación de IA más accesible. Al aprovechar recursos descentralizados para entrenar un modelo de lenguaje de 10 mil millones de parámetros, PRIME Intellect y sus colaboradores han demostrado que el desarrollo avanzado de IA no tiene por qué limitarse a unas pocas corporaciones de élite. A través de innovaciones en marcos de capacitación distribuidos y colaboración global, INTELLECT-1 establece un nuevo estándar de lo que es posible en la investigación de IA abierta e inclusiva. Se espera que el marco PRIME, junto con el modelo INTELLECT-1 disponible públicamente y los datos de capacitación, inspiren más proyectos impulsados por la comunidad, ayudando a nivelar el campo de juego en el espacio de la IA y abriendo puertas para contribuciones más diversas. Este es un paso importante para hacer de la IA un recurso accesible e inclusivo para todos.

Verificar el Papel, Detallesy modelos abrazando la cara (Instruir y Base). Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de 59k+ ML.

🎙️ 🚨’Evaluación de vulnerabilidades de modelos de lenguaje grandes: un análisis comparativo de las técnicas de Red Teaming Lea el informe completo _(Promovido)

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🧵🧵 [Download] Informe de evaluación de vulnerabilidades de modelos de lenguaje grande (promovido)

PRIME Intellect lanza INTELLECT-1 (Instruct + Base): el primer modelo de lenguaje de parámetros 10B entrenado de forma colaborativa en todo el mundo

ByEquipo de 7 minutos

La liberación de INTELLECT-1

Detalles técnicos

Resultados e implicaciones de los puntos de referencia

Conclusión

By Equipo de 7 minutos

Related Post

¿Su primera tarea como ingeniero de datos en una nueva empresa? Haga que la canalización ETL sea comprobable

Las ventanas de contexto no son memoria: lo que los desarrolladores de agentes de IA deben comprender

Gradium lanza stt-translate y s2s-translate, modelos de traducción de voz en tiempo real que superan a gpt-realtime-translate en precisión y latencia

You missed

Las nuevas normas españolas para ciclistas, motos y patinetes eléctricos

Ver Sandra Bullock y Nicole Kidman se burlan de la película de 1998

¿Su primera tarea como ingeniero de datos en una nueva empresa? Haga que la canalización ETL sea comprobable

Posibles signos de vida antigua en Marte son ricos en carbono complejo