¿Puede un modelo de lenguaje pequeño predecir la latencia del núcleo, la memoria y la precisión del modelo del código? Un nuevo modelo de lenguaje de regresión (RLM) dice que sí




Los investigadores de Cornell y Google introducen un modelo de lenguaje de regresión unificado (RLM) que predice resultados numéricos directamente de las cadenas de código, que cubre la latencia del núcleo de GPU, el uso de la memoria del programa e incluso la precisión y la latencia de la red neuronal, sin características de ingeniería a mano. Un codificador-decodificador de 300 m-parámetro inicializado de T5-Gemma logra correlaciones de rango fuertes en tareas e idiomas heterogéneos, utilizando un único decodificador de texto a número que emite dígitos con decodificación restringida.

¿Qué es exactamente lo nuevo?

Regresión unificada de código a métrico: un RLM predice (i) memoria máxima del código de alto nivel (Python/C/C ++ y más), (ii) latencia para núcleos de GPU triton, y (iii) precisión y latencia específica de hardware de los gráficos ONNX: al leer representaciones de texto sin procesar y salidas numéricas decodificadoras. No se requieren ingeniería de características, codificadores gráficos o proxies de costo cero. Resultados concretos: las correlaciones informadas incluyen Spearman ρ ≈ 0.93 en la memoria de código leet de las aplicaciones, ρ ≈ 0.52 para la latencia del núcleo de tritón, ρ> 0.5 promedio en 17 idiomas del codeneta, y kendall τ ≈ 0.46 en cinco espacios nas clásicos, competitivos con y en algunos casos que superan los predictores gráficos basados ​​en gráficos. Decodificación de objetivos múltiples: Debido a que el decodificador es autorregresivo, el modelo condiciona métricas posteriores en las anteriores (p. Ej., Precisión → latencias por servicio), capturando compensaciones realistas a lo largo de los frentes de Pareto.

https://arxiv.org/abs/2509.26476

¿Por qué es esto importante?

Las tuberías de predicción de rendimiento en compiladores, selección de núcleo de GPU y NAS generalmente dependen de características a medida, árboles de sintaxis o codificadores GNN que son frágiles para los nuevos OP/idiomas. Tratar la regresión como la predicción de la próxima token sobre los números estandariza la pila: tokenizar las entradas como texto plano (código fuente, Triton IR, ONNX), luego decodificar cadenas numéricas calibradas dígito por digito con muestreo restringido. Esto reduce el costo de mantenimiento y mejora la transferencia a nuevas tareas a través del ajuste fino.

Datos y puntos de referencia

DataSet de regresión de código (HF): curado para admitir tareas de código a métricas que abarcan las aplicaciones/ejecutas de código leet, latencias de kernel triton (derivado de kernelbook) y huellas de memoria del codeenet. Suite NAS/ONNX: Arquitecturas de Nasbench-101/201, FBNET, una vez para todo (MB/PN/RN), TWOPATH, Hiaml, Inception y NDS se exportan a texto ONNX para predecir la precisión y la latencia específico del dispositivo.

¿Cómo funciona?

Backbone: codificador-decodificador con una inicialización del codificador T5-Gemma (parámetros de ~ 300 m). Las entradas son cadenas sin procesar (código o ONNX). Las salidas son números emitidos como tokens de signos/exponentes/dígitos de mantissa; La decodificación restringida aplica números válidos y respalda la incertidumbre a través del muestreo. Ablaciones: (i) El lenguaje de prevención acelera la convergencia y mejora la predicción de latencia de tritón; (ii) La emisión numérica del decodificador supera a los cabezales de regresión MSE incluso con la normalización Y; (iii) tokenizadores aprendidos especializados para operadores de ONX aumentan el contexto efectivo; (iv) contextos más largos ayudan; (v) La escala a un codificador de Gemma más grande mejora aún más la correlación con un ajuste adecuado. Código de entrenamiento. La biblioteca de regresión-LM proporciona utilidades de regresión de texto a texto, decodificación restringida y recetas de pretratamiento/ajuste de múltiples tareas.

Estadísticas que importan

Memoria de aplicaciones (Python): Spearman ρ> 0.9. CodeNet (17 idiomas) Memoria: promedio ρ> 0.5; Los idiomas más fuertes incluyen C/C ++ (~ 0.74–0.75). Triton Kernels (A6000) Latencia: ρ ≈ 0.52. Ranking NAS: promedio de Kendall τ ≈ 0.46 a través de Nasnet, ameba, PNAS, enas, dardos; Competitive con Flan y GNN Baselas.

Control de llave

Funciona la regresión de código a métrica unificada. Un solo modelo inicializado de ~ 300m-parámetro T5GEMMA (“RLM”) predice: (a) memoria del código de alto nivel, (b) latencia de núcleo GPU Triton y (c) precisión del modelo + latencia del dispositivo de ONNX, directamente de texto, sin características de ingeniería manual. La investigación muestra a Spearman ρ> 0.9 en la memoria de las aplicaciones, ≈0.52 en la latencia de tritón,> 0.5 promedio en 17 lenguajes del codeenet, y kendall-τ ≈ 0.46 en cinco espacios NAS. Los números se decodifican como texto con restricciones. En lugar de un cabezal de regresión, RLM emite tokens numéricos con decodificación restringida, permitiendo salidas multimétricas y autorregresivas (p. Ej. El conjunto de datos de regresión de código unifica las aplicaciones/memoria leetcode, la latencia del kernel triton y la memoria de codeenet; La biblioteca de regresión-LM proporciona la pila de capacitación/decodificación.

Es muy interesante cómo este trabajo refleja la predicción del rendimiento como generación de texto a número: un RLM inicializado compacto de T5GEMMA lee fuente (Python/C ++), núcleos Triton o gráficos ONNX y emite numéricos calibrados a través de decodificación restringida. Las correlaciones informadas (memoria apps (ρ> 0.9), la latencia de tritón en RTX A6000 (~ 0.52) y NAS Kendall-τ ≈0.46) son lo suficientemente fuertes como para importar la heurística del compilador, la poda del kernel y la poda múltiple NAS sin las características o los GNNS. El conjunto de datos y la biblioteca abiertos hacen que la replicación sea directa y reduzca la barrera para ajustar el nuevo hardware o los idiomas.

🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial

Consulte el documento, la página GitHub y la tarjeta de conjunto de datos. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín. ¡Esperar! ¿Estás en Telegram? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🙌 Siga a MarkTechPost: agrégenos como una fuente preferida en Google.







Artículo anteriorUna guía de codificación para construir una IA agente autónoma para el pronóstico de series de tiempo con dardos y cara de abrazo