Entrenar un modelo de lenguaje grande requiere importantes recursos computacionales, incluidas GPU y TPU potentes, así como hardware especializado, como aceleradores de IA. Estos recursos pueden resultar costosos de adquirir y mantener. Recopilar y preparar las grandes cantidades de datos necesarios para entrenar modelos de lenguaje grandes puede ser un proceso costoso y que requiere mucho tiempo. Los conjuntos de datos representativos, diversos y de alta calidad son esenciales para el rendimiento del modelo.
La capacitación de modelos de lenguaje grandes puede llevar semanas o incluso meses, según el tamaño y la complejidad del modelo. La escasez es un enfoque natural para reducir este costo. Los métodos existentes requieren un costoso reentrenamiento o no permiten acelerar el tiempo del reloj de pared en el hardware moderno. Los investigadores han desarrollado un nuevo conjunto de cabezas de atención y parámetros MLP dependientes de la entrada que producen aproximadamente el mismo resultado que los modelos densos con una entrada determinada durante un tiempo más largo.
Plantean la hipótesis de que existe escasez contextual y, cuando se predicen con precisión, pueden acelerar la inferencia de LLM en el tiempo de un reloj de pared sin comprometer la calidad de LLM o la capacidad de aprendizaje en contexto. Proponen “DEJA VU“, un sistema que utiliza un algoritmo de bajo costo para predecir la escasez contextual sobre la marcha dadas las entradas de cada capa, junto con una implementación asincrónica y de hardware que acelera la inferencia LLM.
Incluso si existe escasez contextual, es difícil predecir de antemano la escasez de un insumo determinado. No es trivial verificar si existe tal escasez contextual, y una verificación ingenua puede resultar prohibitivamente costosa. También puede resultar difícil lograr una aceleración del tiempo del reloj de pared de un extremo a otro. El equipo ha verificado la existencia de tal escasez con un enfoque sencillo. La escasez contextual depende no sólo de los tokens de entrada individuales sino también de sus interacciones. Sólo con incorporaciones de tokens con suficiente información contextual, predicen la escasez con precisión.
La escasez contextual en el bloque MLP se puede identificar después de calcular la activación. Sin embargo, esto sólo demuestra la existencia de escasez contextual pero no aporta ningún beneficio en términos de eficiencia. Se necesita una predicción rápida y precisa para aprovechar la escasez contextual y lograr una eficiencia de un extremo a otro.
DEJAVU utiliza predictores anticipados para evitar los costos de predicción. Dada la entrada a la capa de atención en el bloque k, predicen de forma asincrónica la escasez contextual para el MLP en el bloque k y proporcionan la información al MLP en el bloque k. Luego predicen la escasez de la cabeza de atención en la siguiente capa. También afirman que la escasez contextual se puede predecir con precisión con algoritmos ligeros basados en el aprendizaje.
Los investigadores descubren que DEJAVU logra una reducción de más del doble en la latencia de generación de tokens en comparación con el FasterTransformer de última generación y más de seis veces en comparación con Hugging Face sin pérdida de precisión. El predictor disperso de MLP no introduce pérdida de precisión ni en las tareas de disparo cero ni en el modelado del lenguaje. En el entrenamiento del predictor disperso MLP, observaron que el predictor disperso logra una alta precisión de validación.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
también estamos en Telegrama y WhatsApp.
Arshad es pasante en MarktechPost. Actualmente cursa su carrera internacional. Maestría en Física del Instituto Indio de Tecnología Kharagpur. Comprender las cosas hasta el nivel fundamental conduce a nuevos descubrimientos que conducen al avance de la tecnología. Le apasiona comprender la naturaleza fundamentalmente con la ayuda de herramientas como modelos matemáticos, modelos de aprendizaje automático e inteligencia artificial.