Los modelos de lenguaje grande (LLM) han remodelado el razonamiento de IA, con métodos de pensamiento paralelo y autoconsistencia a menudo citados como avances fundamentales. Sin embargo, estas técnicas enfrentan una compensación fundamental: el muestreo de múltiples rutas de razonamiento aumenta la precisión pero a un costo computacional empinado. Un equipo de investigadores de Meta AI y UCSD introducen Pensar profundo con confianza (profundo)un nuevo enfoque de IA casi elimina esta compensación. Deepconf ofrece rendimiento de razonamiento de vanguardia con ganancias de eficiencia dramática—Achieving, por ejemplo, 99.9% de precisión Sobre la agotadora competencia de matemáticas AIME 2025 utilizando el GPT-OSS-20B de código abierto, mientras requiere hasta 85% menos tokens generados que los enfoques de pensamiento paralelo convencional.
¿Por qué DeepConf?
El pensamiento paralelo (autoconsistencia con la votación mayoritaria) es el estándar de facto para impulsar el razonamiento de LLM: generar múltiples soluciones candidatas, luego elegir la respuesta más común. Si bien es efectivo, este método tiene Devoluciones decrecientes—Estar las mesetas de aceptación o incluso disminuyendo a medida que se muestrean más caminos, porque las huellas de razonamiento de baja calidad pueden diluir el voto. Además, generar cientos o miles de rastros por consulta es costoso, tanto en tiempo como en cómputo.
DeepConf aborda estos desafíos por Explotando las propias señales de confianza de la LLM. En lugar de tratar todos los rastros de razonamiento por igual, filtra dinámicamente caminos de baja confianza, ya sea Durante la generación (en línea) o después (fuera de línea): Usando solo las trayectorias más confiables para informar la respuesta final. Esta estrategia es modelo-agnósticorequiere Sin entrenamiento o ajuste de hiperparametery se puede conectar a cualquier modelo existente o marco de servicio con cambios de código mínimos.
Cómo funciona DeepConf: la confianza como guía
DeepConf introduce varios avances en cómo se mide y usa la confianza:
- Confianza de tokens: Para cada token generado, calcule la probabilidad de registro promedio negativa de los candidatos de Top-K. Esto da una medida local de certeza.
- Confianza grupal: La confianza promedio de tokens sobre una ventana deslizante (p. Ej., 2048 fichas), proporcionando una señal intermedia e intermedia de calidad de razonamiento.
- Confianza de la cola: Concéntrese en el segmento final del rastro de razonamiento, donde la respuesta a menudo reside, para atrapar desgloses tardíos.
- Confianza del grupo más baja: Identifique el segmento menos confiado en el rastro, que a menudo indica el colapso del razonamiento.
- Confianza del percentil inferior: Destaca los peores segmentos, que son más predictivos de errores.
Estas métricas se usan para Votos de peso (Las trazas de alta confianza cuentan más) o para rastros de filtro (Solo se mantienen los rastros más importantes η% más seguros). En modo en líneaDeepConf deja de generar un rastro tan pronto como su confianza cae por debajo de un umbral calibrado dinámicamente, reduciendo drásticamente el cálculo desperdiciado.
Resultados clave: rendimiento y eficiencia
DeepConf se evaluó en múltiples puntos de referencia de razonamiento (AIME 2024/2025, HMMT 2025, Brumo25, GPQA-Diamond) y modelos (Deepseek-8B, Qwen3-8b/32b, GPT-ASS-20B/120B). Los resultados son sorprendentes:
| Modelo | Conjunto de datos | Pasar@1 ACC | Contras@512 ACC | Profundo@512 ACC | Tokens guardados |
|---|---|---|---|---|---|
| GPT-OSS-120B | AIME 2025 | 91.8% | 97.0% | 99.9% | -84.7% |
| Deepseek-8b | AIME 2024 | 83.0% | 86.7% | 93.3% | -77.9% |
| QWEN3-32B | AIME 2024 | 80.6% | 85.3% | 90.8% | -56.0% |
Boost de rendimiento: En todos los modelos y conjuntos de datos, DeepConf mejora la precisión hasta hasta ~ 10 puntos porcentuales sobre la votación mayoritaria estándar, a menudo saturando el límite superior del punto de referencia.
Ultraeficiente: Por rastros de baja confianza temprana, DeepConf reduce el número total de tokens generados por 43–85%sin pérdida (y a menudo una ganancia) en la precisión final.
Plug & Play: DeepConf funciona fuera de la caja con cualquier modelo: sin ajuste, sin búsqueda de hiperparameter y no hay cambios en la arquitectura subyacente. Puede dejarlo en su pila de servicio existente (por ejemplo, VLLM) con ~ 50 líneas de código.
Fácil de implementar: El método se implementa como una extensión liviana para los motores de inferencia existentes, que requiere solo acceso a los madrugadores a nivel de token y algunas líneas de lógica para el cálculo de la confianza y la parada temprana.
Integración simple: código mínimo, impacto máximo
La implementación de DeepConf es bastante simple. Para VLLM, los cambios son mínimos:
- Extender el procesador LogProbs Para rastrear la confianza de la ventana deslizante.
- Agregue un cheque de parada temprana antes de emitir cada salida.
- Pasar umbrales de confianza a través de la API, sin capacitación modelo.
Esto permite que cualquier punto final compatible con OpenAI admite DeepConf con una sola configuración adicional, lo que hace que sea trivial adoptar en entornos de producción.
Conclusión
Deepconf de Meta Ai representa un avanzar En el razonamiento de LLM, ofreciendo tanto precisión máxima como eficiencia sin precedentes. Al aprovechar dinámicamente la confianza interna del modelo, DeepConf logra lo que anteriormente estaba fuera del alcance de los modelos de código abierto: Resultados casi perfectos en tareas de razonamiento de élite, con una fracción del costo computacional.
Preguntas frecuentes
Preguntas frecuentes 1: ¿Cómo mejora DeepConf la precisión y la eficiencia en comparación con la votación mayoritaria?
El filtrado y la votación consciente de la confianza de DeepConf prioriza las trazas con mayor certeza del modelo, lo que aumenta la precisión de hasta 10 puntos porcentuales en los puntos de referencia de razonamiento en comparación con la votación de la mayoría. Al mismo tiempo, su terminación temprana de trazas de baja confianza recorta el uso de token hasta en un 85%, ofreciendo ganancias de rendimiento y eficiencia masiva en implementaciones prácticas
Preguntas frecuentes 2: ¿Se puede usar DeepConf con cualquier modelo de idioma o marco de servicio?
Sí. DeepConf es totalmente agnóstico del modelo y puede integrarse en cualquier pila de servicio, incluidos modelos comerciales y de código abierto, sin modificar o reentrenamiento. La implementación requiere solo cambios mínimos (~ 50 líneas de código para VLLM), aprovechando los trávits de token para calcular la confianza y manejar la parada temprana.
Preguntas frecuentes 2: ¿DeepConf requiere reentrenamiento, datos especiales o ajuste complejo?
No. DeepConf opera completamente a tiempo de inferencia, no requiere capacitación adicional de modelo, ajuste o búsquedas de hiperparameter. Utiliza solo salidas LogProb incorporadas y funciona inmediatamente con configuraciones de API estándar para marcos principales; Es escalable, robusto e implementable en cargas de trabajo reales sin interrupción.
Mira el Papel y Página del proyecto. No dude en ver nuestro Página de Github para tutoriales, códigos y cuadernos. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.