El campo de la generación estructurada se ha vuelto importante con el auge de los LLM. Estos modelos, capaces de generar texto similar al humano, ahora tienen la tarea de producir resultados que sigan formatos rígidos como JSON, SQL y otros lenguajes específicos de dominio. Aplicaciones como la generación de código, el control robótico y las consultas estructuradas dependen en gran medida de estas capacidades. Sin embargo, garantizar que los productos se ajusten a estructuras específicas sin comprometer la velocidad o la eficiencia sigue siendo un desafío importante. Los resultados estructurados permiten un procesamiento posterior fluido, pero la complejidad de lograr estos resultados requiere soluciones innovadoras.
A pesar de los avances en los LLM, la generación de producción estructurada sigue plagada de ineficiencias. Un desafío importante es gestionar las demandas computacionales de cumplir con restricciones gramaticales durante la generación de resultados. Los métodos tradicionales, como la interpretación de la gramática libre de contexto (CFG), requieren procesar cada token posible en el vocabulario del modelo, que puede superar los 128.000 tokens. Además, mantener los estados de la pila para rastrear las reglas gramaticales recursivas aumenta los retrasos en el tiempo de ejecución. Como resultado, los sistemas existentes a menudo experimentan una alta latencia y un mayor uso de recursos, lo que los hace inadecuados para aplicaciones en tiempo real o a gran escala.
Las herramientas actuales para la generación estructurada utilizan métodos de decodificación restringidos para garantizar que los resultados se alineen con reglas predefinidas. Estos enfoques filtran los tokens no válidos estableciendo sus probabilidades en cero en cada paso de decodificación. Si bien es eficaz, la decodificación restringida a menudo necesita mejorar su eficiencia debido a la evaluación de cada token frente al estado completo de la pila. Además, la naturaleza recursiva de los CFG complica aún más el procesamiento en tiempo de ejecución. Estos desafíos han limitado la escalabilidad y la practicidad de los sistemas existentes, particularmente cuando se manejan estructuras complejas o vocabularios extensos.
Investigadores de la Universidad Carnegie Mellon, NVIDIA, la Universidad Jiao Tong de Shanghai y la Universidad de California Berkeley desarrollaron XGramáticaun innovador motor de generación estructurado para abordar estas limitaciones. XGrammar introduce un enfoque novedoso al dividir los tokens en dos categorías: tokens independientes del contexto que pueden validarse previamente y tokens dependientes del contexto que requieren evaluación en tiempo de ejecución. Esta separación reduce significativamente la carga computacional durante la generación de resultados. Además, el sistema incorpora un motor de inferencia y gramática diseñado conjuntamente, lo que le permite superponer cálculos gramaticales con operaciones LLM basadas en GPU, minimizando así los gastos generales.
La implementación técnica de XGrammar incluye varias innovaciones clave. Utiliza un autómata pushdown a nivel de bytes para procesar CFG de manera eficiente, lo que le permite manejar límites de token irregulares y estructuras anidadas. La caché de máscara de token adaptable precalcula y almacena la validez de los tokens independientes del contexto, cubriendo más del 99% de los tokens en la mayoría de los casos. Los tokens dependientes del contexto, que representan menos del 1% del total, se procesan mediante una pila de ejecución persistente que permite operaciones rápidas de ramificación y reversión. La fase de preprocesamiento de XGrammar se superpone con el procesamiento rápido inicial del LLM, lo que garantiza una latencia cercana a cero para la generación estructurada.
Las evaluaciones de desempeño revelan las importantes ventajas de XGrammar. Para las tareas de gramática JSON, el sistema logra un tiempo de generación de máscara de token de menos de 40 microsegundos, lo que ofrece una aceleración de hasta 100 veces en comparación con los métodos tradicionales. Integrado con el modelo Llama 3.1, XGrammar permite una mejora de 80 veces en la generación de resultados estructurados de extremo a extremo en la GPU NVIDIA H100. Además, las técnicas de optimización de la memoria reducen los requisitos de almacenamiento a sólo el 0,2% del tamaño original, de 160 MB a 0,46 MB. Estos resultados demuestran la capacidad de XGrammar para manejar tareas a gran escala con una eficiencia sin precedentes.
Los esfuerzos de los investigadores tienen varias conclusiones clave:
- Categorización de tokens: Al precalcular tokens independientes del contexto y reducir las comprobaciones en tiempo de ejecución para tokens dependientes del contexto, XGrammar minimiza significativamente la sobrecarga computacional.
- Eficiencia de la memoria: La caché de máscara de token adaptable reduce el uso de memoria a solo el 0,2 % de los requisitos originales, lo que la hace altamente escalable.
- Rendimiento mejorado: Con una aceleración de 100 veces en el procesamiento de CFG y una mejora de 80 veces en la generación de resultados estructurados, XGrammar establece un nuevo punto de referencia en materia de eficiencia.
- Implementación multiplataforma: XGrammar admite una amplia gama de plataformas, incluidos navegadores del lado del cliente, lo que permite su uso en dispositivos portátiles como teléfonos inteligentes.
- Integración con marcos LLM: El sistema se integra perfectamente con modelos LLM populares, como Llama 3.1, lo que garantiza compatibilidad y facilidad de adopción.
En conclusión, XGrammar representa un paso transformador en la generación estructurada para modelos de lenguaje grandes. Abordar las ineficiencias en el procesamiento CFG tradicional y la decodificación restringida ofrece una solución escalable y de alto rendimiento para generar resultados estructurados. Sus técnicas innovadoras, como la categorización de tokens, la optimización de la memoria y la compatibilidad de plataformas, la convierten en una herramienta esencial para hacer avanzar las aplicaciones de IA. Con resultados de hasta 100 veces de velocidad y latencia reducida, XGrammar establece un nuevo estándar para la generación estructurada, lo que permite a los LLM satisfacer las demandas de los sistemas de IA modernos de manera efectiva.
Verificar el papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferencia virtual gratuita sobre GenAI con Meta, Mistral, Salesforce, Harvey AI y más. Únase a nosotros el 11 de diciembre en este evento virtual gratuito para aprender lo que se necesita para construir a lo grande con modelos pequeños de pioneros de la IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face y más.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.