El rápido desarrollo de la inteligencia artificial (IA) ha producido modelos con potentes capacidades, como la comprensión del lenguaje y el procesamiento de la visión. Sin embargo, implementar estos modelos en dispositivos periféricos sigue siendo un desafío debido a las limitaciones en la potencia computacional, la memoria y la eficiencia energética. La necesidad de modelos livianos que puedan ejecutarse de manera efectiva en dispositivos perimetrales y al mismo tiempo ofrecer un rendimiento competitivo está creciendo a medida que los casos de uso de IA se extienden más allá de la nube y llegan a los dispositivos cotidianos. Los modelos grandes tradicionales suelen consumir muchos recursos, lo que los hace poco prácticos para dispositivos más pequeños y crea una brecha en la informática de punta. Los investigadores han estado buscando formas efectivas de llevar la IA a entornos periféricos sin comprometer significativamente la calidad y eficiencia del modelo.
Los investigadores de la Universidad de Tsinghua lanzaron recientemente la serie GLM-Edge, una familia de modelos que van desde 1.500 millones a 5.000 millones de parámetros diseñados específicamente para dispositivos de borde. Los modelos GLM-Edge ofrecen una combinación de capacidades de visión y procesamiento del lenguaje, enfatizando la eficiencia y la accesibilidad sin sacrificar el rendimiento. Esta serie incluye modelos que atienden tanto a aplicaciones de visión como de IA conversacional, diseñados para abordar las limitaciones de los dispositivos con recursos limitados.
GLM-Edge incluye múltiples variantes optimizadas para diferentes tareas y capacidades del dispositivo, proporcionando una solución escalable para diversos casos de uso. La serie se basa en la tecnología General Language Model (GLM), ampliando su rendimiento y modularidad a escenarios de vanguardia. A medida que los dispositivos IoT impulsados por IA y las aplicaciones perimetrales siguen ganando popularidad, GLM-Edge ayuda a cerrar la brecha entre la IA computacionalmente intensiva y las limitaciones de los dispositivos perimetrales.
Detalles técnicos
La serie GLM-Edge se basa en la estructura de GLM, optimizada con técnicas de cuantificación y cambios arquitectónicos que la hacen adecuada para implementaciones de borde. Los modelos se han entrenado utilizando una combinación de destilación de conocimientos y poda, lo que permite una reducción significativa en el tamaño del modelo manteniendo altos niveles de precisión. Específicamente, los modelos aprovechan la cuantificación de 8 bits e incluso de 4 bits para reducir la memoria y las demandas computacionales, haciéndolos viables para dispositivos pequeños con recursos limitados.
La serie GLM-Edge tiene dos áreas de enfoque principales: IA conversacional y tareas visuales. Los modelos de lenguaje son capaces de llevar a cabo diálogos complejos con latencia reducida, mientras que los modelos de visión admiten diversas tareas de visión por computadora, como la detección de objetos y los subtítulos de imágenes, en tiempo real. Una ventaja notable de GLM-Edge es su modularidad: puede combinar capacidades de lenguaje y visión en un solo modelo, ofreciendo una solución para aplicaciones multimodales. Los beneficios prácticos de GLM-Edge incluyen un consumo eficiente de energía, una latencia reducida y la capacidad de ejecutar aplicaciones impulsadas por IA directamente en dispositivos móviles, cámaras inteligentes y sistemas integrados.
La importancia de GLM-Edge radica en su capacidad para hacer que las capacidades sofisticadas de IA sean accesibles a una gama más amplia de dispositivos más allá de los potentes servidores en la nube. Al reducir la dependencia de la potencia computacional externa, los modelos GLM-Edge permiten aplicaciones de IA que son rentables y respetuosas con la privacidad, ya que los datos se pueden procesar localmente en el dispositivo sin necesidad de enviarlos a la nube. Esto es particularmente relevante para aplicaciones donde la privacidad, la baja latencia y el funcionamiento sin conexión son factores importantes.
Los resultados de la evaluación de GLM-Edge demuestran un rendimiento sólido a pesar del recuento reducido de parámetros. Por ejemplo, el GLM-Edge-1.5B logró resultados comparables a los de modelos de transformadores mucho más grandes cuando se probó en puntos de referencia de visión y PNL generales, destacando las ganancias de eficiencia a través de optimizaciones cuidadosas del diseño. La serie también mostró un sólido desempeño en tareas relevantes, como la detección de palabras clave y el análisis de video en tiempo real, ofreciendo un equilibrio entre el tamaño del modelo, la latencia y la precisión.
Conclusión
La serie GLM-Edge de la Universidad de Tsinghua representa un avance en el campo de la IA de vanguardia, al abordar los desafíos de los dispositivos con recursos limitados. Al proporcionar modelos que combinan eficiencia con capacidades visuales y conversacionales, GLM-Edge permite nuevas aplicaciones de IA de vanguardia que son prácticas y efectivas. Estos modelos ayudan a acercar la visión de la IA ubicua a la realidad, permitiendo que los cálculos de IA se realicen en el dispositivo y haciendo posible ofrecer soluciones de IA más rápidas, seguras y rentables. A medida que la adopción de la IA continúa expandiéndose, la serie GLM-Edge se destaca como un esfuerzo que aborda los desafíos únicos de la informática de punta, proporcionando un camino prometedor para la IA en el mundo real.
Verificar el Página de GitHub y Modelos abrazando la cara. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.