Los LLM ahora pueden razonar en paralelo: los investigadores de UC Berkeley y UCSF introducen un razonamiento paralelo adaptativo para escalar la inferencia de manera eficiente sin exceder las ventanas de contexto

Los modelos de idiomas grandes (LLM) han hecho avances significativos en las capacidades de razonamiento, ejemplificados por sistemas innovadores como OpenAI O1 y Deepseekr1, que utilizan el cómputo de la búsqueda para la búsqueda y el aprendizaje de refuerzo para optimizar el rendimiento. A pesar de este progreso, las metodologías actuales enfrentan desafíos críticos que impiden su efectividad. Los enfoques serializados de la cadena de pensamiento generan secuencias de salida excesivamente largas, aumentando la latencia y empujando las restricciones de las ventanas de contexto. Por el contrario, los métodos paralelos como el mejor de N y la autoconsistencia sufren de mala coordinación entre las rutas de inferencia y la falta de optimización de extremo a extremo, lo que resulta en ineficiencia computacional y un potencial de mejora limitado. Además, las técnicas de búsqueda de tiempo de inferencia estructuradas como el árbol de pensamiento dependen de estructuras de búsqueda diseñadas manualmente, lo que restringe significativamente su flexibilidad y capacidad para escalar en diferentes tareas y dominios de razonamiento.

Han surgido varios enfoques para abordar los desafíos computacionales en el razonamiento de LLM. Los métodos de escala de tiempo de inferencia han mejorado el rendimiento de la tarea posterior al aumentar el cálculo del tiempo de prueba, pero generalmente generan secuencias de salida significativamente más largas. Esto crea una latencia más alta y obliga a los modelos a adaptarse a las cadenas de razonamiento enteras en una sola ventana de contexto, lo que dificulta la asistencia a la información relevante. Las estrategias de paralelización como el conjunto han intentado mitigar estos problemas ejecutando múltiples llamadas del modelo de lenguaje independiente simultáneamente. Sin embargo, estos métodos sufren de mala coordinación en los hilos paralelos, lo que lleva a un cálculo redundante y una utilización de recursos ineficientes. Se han propuesto estructuras de razonamiento paralelizables fijas, como los sistemas de razonamiento de árbol de pensamiento y múltiples agentes, pero sus estructuras de búsqueda diseñadas a mano limitan la flexibilidad y la escalabilidad. Otros enfoques, como la pasta, descomponen las tareas en subtareas paralelas, pero en última instancia reintegran el contexto completo en la trayectoria de inferencia principal, al no reducir el uso del contexto de manera efectiva. ¡Mientras tanto, Hogwild! La inferencia emplea hilos de trabajadores paralelos, pero se basa exclusivamente en la provisión sin optimización de extremo a extremo.

Los investigadores de UC Berkeley y UCSF han propuesto Razonamiento paralelo adaptativo (APR). Este enfoque robusto permite que los modelos de lenguaje distribuyan dinámicamente el cálculo de tiempo de inferencia en operaciones en serie y paralela. Esta metodología generaliza los enfoques de razonamiento existentes, incluidos el razonamiento serializado de la cadena de pensamiento, la inferencia paralelizada con la autoconsistencia y la búsqueda estructurada, al capacitar modelos para determinar cuándo y cómo paralelizar las operaciones de inferencia en lugar de imponer estructuras de búsqueda fijas. APR presenta dos innovaciones clave: un mecanismo de roscado para padres e hijos y optimización de aprendizaje de refuerzo de extremo a extremo. El mecanismo de roscado permite que los hilos de inferencia de los padres delegan subtareas a múltiples hilos infantiles a través de una operación de desove (), lo que permite la exploración paralela de rutas de razonamiento distintas. Los hilos infantiles luego devuelven los resultados al hilo principal a través de una operación Join (), lo que permite que el padre continúe decodificando con esta nueva información. Construido en el marco de servicio del modelo SGLANG, APR reduce significativamente la latencia en tiempo real al realizar una inferencia en hilos infantiles simultáneamente a través del lotes. La segunda innovación, el ajuste fino a través del aprendizaje de refuerzo de extremo a extremo, optimiza para el éxito general de la tarea sin requerir estructuras de razonamiento predefinidas. Este enfoque ofrece tres ventajas significativas: un mayor rendimiento dentro de las ventanas de contexto fijo, la escala superior con mayores presupuestos de cómputo y un rendimiento mejorado en una latencia equivalente en comparación con los métodos tradicionales.

La arquitectura APR implementa un mecanismo sofisticado de subprocesos múltiples que permite a los modelos de lenguaje orquestar dinámicamente los procesos de inferencia paralela. APR aborda las limitaciones de los métodos de razonamiento serializados al distribuir el cálculo entre los hilos parentales e infantiles, minimizando la latencia al tiempo que mejora el rendimiento dentro de las limitaciones de contexto. La arquitectura consta de tres componentes clave:

Primero, el Sistema de inferencia de múltiples subprocesos Permite que los hilos de los padres generen múltiples hilos infantiles utilizando una operación de desove (MSGS). Cada hilo infantil recibe un contexto distinto y ejecuta inferencia de forma independiente, pero simultáneamente utilizando el mismo modelo de idioma. Cuando un hilo infantil completa su tarea, devuelve los resultados al padre a través de una operación de unión (MSG), comunicando selectivamente solo la información más relevante. Este enfoque reduce significativamente el uso del token al mantener las trazas de búsqueda intermedia confinadas a los hilos infantiles.

Segundo, el metodología de entrenamiento emplea un enfoque de dos fases. Inicialmente, APR utiliza el aprendizaje supervisado con demostraciones generadas automáticamente que incorporan estrategias de búsqueda de profundidad y amplia primera, creando patrones de búsqueda híbridos. El solucionador simbólico crea manifestaciones con paralelización, descomponiendo las búsquedas en múltiples componentes que evitan los cuellos de botella de las ventanas de contexto durante el entrenamiento y la inferencia.

Finalmente, el sistema implementa optimización de aprendizaje de refuerzo de extremo a extremo con GRPO (optimización de políticas basada en gradientes). Durante esta fase, el modelo aprende a determinar estratégicamente cuándo y cuán ampliamente invocar hilos infantiles, optimizando para la eficiencia computacional y la efectividad del razonamiento. El modelo muestra iterativamente el razonamiento traza, evalúa su corrección y ajusta los parámetros en consecuencia, en última instancia, aprende a equilibrar la exploración paralela con las restricciones de las ventanas de contexto para el máximo rendimiento.

La evaluación comparó el razonamiento paralelo adaptativo con los métodos de razonamiento serializado de la cadena de pensamiento y la autoconsistencia utilizando un modelo de lenguaje de decodificador estándar con 228m parámetros construidos en la arquitectura LLAMA2 y que admite una ventana de contexto de 4.096 token. Todos los modelos se inicializaron a través del aprendizaje supervisado en 500,000 trayectorias de solucionadores simbólicos. Para la evaluación directa de precisión de la cómputo, el equipo implementó un método de restricción presupuestaria con acondicionamiento de ventana de contexto para modelos SOS+ y acondicionamiento de recuento de hilos para modelos APR. El marco SGLANG se utilizó para inferencia debido a su soporte para un lote continuo y una atención de Radix, lo que permite una implementación eficiente de APR.

Los resultados experimentales demuestran que APR supera constantemente los métodos serializados en múltiples dimensiones. Al escalar con un mayor cálculo, APR inicialmente tiene un rendimiento inferior en regímenes de baja competencia debido a la sobrecarga del paralelismo, pero supera significativamente SOS+ a medida que aumenta el cómputo, logre una mejora del 13.5% a 20k tokens y superando el rendimiento SOS+ Pass@8 mientras usa 57.4% menos de compuesto. Para la escala de las ventanas de contexto, APR explota constantemente el contexto de manera más eficiente, con 10 hilos que logran una precisión aproximadamente un 20% mayor en el límite de 4K-token al distribuir el razonamiento a través de hilos paralelos en lugar de contener trazas enteras dentro de una sola ventana de contexto.

El aprendizaje de refuerzo de extremo a extremo mejora significativamente el rendimiento de APR, lo que aumenta la precisión del 75.5% al ​​83.4%. Los modelos optimizados por RL demuestran comportamientos marcadamente diferentes, aumentando tanto la longitud de secuencia (aumento relativo de 22.1%) como el número de hilos infantiles (34.4% de aumento relativo). Esto revela que para las tareas de cuenta regresiva, los modelos optimizados por RL favorecen los patrones de búsqueda más amplios sobre los más profundos, lo que demuestra la capacidad del algoritmo para descubrir estrategias de búsqueda óptimas de forma autónoma.

APR demuestra una eficiencia superior en evaluaciones teóricas y prácticas. Al medir el uso de token secuencial, APR aumenta significativamente la precisión con tokens secuenciales adicionales mínimos más allá de 2,048, que rara vez excede los 2,500 tokens, mientras que SOS+ muestra solo mejoras marginales a pesar de acercarse a 3.000 tokens. Las pruebas de latencia del mundo real en un servidor NVIDIA RTX A6000 de 8 GPU revela que APR logra compensaciones sustancialmente mejores de precisión de latencia, alcanzando una precisión del 75% a 5000 ms por muestra, una mejora absoluta del 18% sobre el 57% de SOS+. Estos resultados destacan la paralelización de hardware efectiva de APR y el potencial de rendimiento optimizado en escenarios de implementación.

El razonamiento paralelo adaptativo representa un avance significativo en las capacidades de razonamiento del modelo de lenguaje al permitir la distribución dinámica de la computación a través de las rutas seriales y paralelas a través de un mecanismo de roscado entre padres e hijos. Al combinar la capacitación supervisada con el aprendizaje de refuerzo de extremo a extremo, APR elimina la necesidad de estructuras diseñadas manualmente al tiempo que permite que los modelos desarrollen estrategias de paralelización óptimas. Los resultados experimentales en la tarea de cuenta regresiva demuestran las ventajas sustanciales de APR: mayor rendimiento dentro de las ventanas de contexto fijo, escala superior con mayores presupuestos de cálculo y tasas de éxito significativamente mejoradas a restricciones de latencia equivalentes. Estos logros destacan el potencial de los sistemas de razonamiento que estructuran dinámicamente los procesos de inferencia para lograr una mayor escalabilidad y eficiencia en tareas complejas de resolución de problemas.


Mira el Papel. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit. Para promoción y asociaciones, Por favor, hable.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.