Conozca MosaicBERT: una arquitectura de codificador estilo BERT y una receta de entrenamiento empíricamente optimizada para un preentrenamiento rápido

BERT es un modelo de lenguaje lanzado por Google en 2018. Se basa en la arquitectura del transformador y es conocido por su mejora significativa con respecto a los modelos de última generación anteriores. Como tal, ha sido el centro neurálgico de numerosas aplicaciones de procesamiento del lenguaje natural (NLP) desde sus inicios, e incluso en la era de los grandes modelos de lenguaje (LLM), los modelos de codificador estilo BERT se utilizan en tareas como incrustaciones de vectores y recuperación de generación aumentada. (TRAPO). Sin embargo, en la última media década, se han logrado muchos avances significativos con otros tipos de arquitecturas y configuraciones de capacitación que aún no se han incorporado a BERT.

En este artículo de investigación, los autores han demostrado que las optimizaciones de velocidad se pueden incorporar a la arquitectura BERT y a la receta de entrenamiento. Para ello, han introducido un marco optimizado llamado mosaicoBERT eso mejora la velocidad y la precisión del preentrenamiento de la arquitectura BERT clásica, cuyo entrenamiento históricamente ha sido costoso desde el punto de vista computacional.

Para construir MosaicBERT, los investigadores utilizaron diferentes opciones arquitectónicas como FlashAttention, ALiBi, entrenamiento con unpadding dinámico, LayerNorm de baja precisión y Gated Linear Units.

La capa flashAttention reduce la cantidad de operaciones de lectura/escritura entre la memoria a corto y largo plazo de la GPU.
ALiBi codifica información de posición a través de la operación de atención, eliminando las incrustaciones de posición y actuando como un método indirecto de aceleración.
Los investigadores modificaron los módulos LayerNorm para ejecutarlos con precisión bfloat16 en lugar de float32, lo que reduce la cantidad de datos que deben cargarse desde la memoria de 4 bytes por elemento a 2 bytes.
Por último, las unidades lineales cerradas mejoran el rendimiento de Pareto en todas las escalas de tiempo.

Los investigadores entrenaron previamente BERT-Base y MosaicBERT-Base para 70.000 pasos de un tamaño de lote 4096 y luego los ajustaron en el conjunto de pruebas GLUE. BERT-Base alcanzó una puntuación GLUE promedio del 83,2 % en 11,5 horas, mientras que MosaicBERT logró la misma precisión en aproximadamente 4,6 horas en el mismo hardware, lo que destaca la importante aceleración. MosaicBERT también supera al modelo BERT en cuatro de ocho tareas GLUE durante la duración del entrenamiento.

La variante grande de MosaicBERT también tuvo una aceleración significativa con respecto a la variante BERT, logrando una puntuación GLUE promedio de 83,2 en 15,85 horas en comparación con las 23,35 horas tomadas por BERT-Large. Ambas variantes de MosaicBERT son Pareto Optimal en relación con los modelos BERT correspondientes. Los resultados también muestran que el rendimiento de BERT-Large supera al modelo base sólo después de una formación exhaustiva.

En conclusión, los autores de este artículo de investigación han mejorado la velocidad y precisión del preentrenamiento del modelo BERT utilizando una combinación de opciones arquitectónicas como FlashAttention, ALiBi, LayerNorm de baja precisión y Gated Linear Units. Ambas variantes del modelo tuvieron una aceleración significativa en comparación con sus contrapartes BERT al lograr el mismo puntaje GLUE en menos tiempo en el mismo hardware. Los autores esperan que su trabajo ayude a los investigadores a entrenar previamente los modelos BERT de forma más rápida y económica, lo que en última instancia les permitirá construir mejores modelos.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Conozca MosaicBERT: una arquitectura de codificador estilo BERT y una receta de entrenamiento empíricamente optimizada para un preentrenamiento rápido

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

OpenAI presenta una vista previa de GPT-5.6 con Sol, Terra y Luna: modelos escalonados, nuevos modos de razonamiento, acceso limitado

DeepSeek lanza DSpark, un marco de decodificación especulativo que acelera la generación por usuario de DeepSeek-V4 entre un 60 % y un 85 % con respecto a MTP-1

Un estudio de cursor encuentra que la piratería de recompensas infla las puntuaciones de referencia de los agentes de codificación en SWE-bench Pro

You missed

La popular playa de Mallorca recupera la Bandera Azul

Los fans reaccionan a la noche inaugural de la gira conjunta

Podcast de esta semana en el espacio: Episodio 216 – Inteligencia de la materia oscura

¿Podría finalmente Europa dejar de cambiar sus relojes? « Noticias semanales del euro