Los modelos de lenguaje grande (LLMS) utilizan recursos computacionales extensos para procesar y generar texto humano. Una técnica emergente para mejorar las capacidades de razonamiento en LLM es la escala de tiempo de prueba, que asigna dinámicamente los recursos computacionales durante la inferencia. Este enfoque tiene como objetivo mejorar la precisión de las respuestas refinando el proceso de razonamiento del modelo. Como modelos como la serie O1 de OpenAI introdujeron la escala de tiempo de prueba, los investigadores buscaron comprender si las cadenas de razonamiento más largas condujeron a un mejor rendimiento o si las estrategias alternativas podrían generar mejores resultados.
El razonamiento de escala en los modelos de IA plantea un desafío significativo, especialmente en los casos en que las cadenas de pensamiento extendidas no necesariamente se traducen en mejores resultados. Los investigadores cuestionan la suposición de que aumentar la duración de las respuestas aumenta la precisión, que han encontrado que las explicaciones más largas pueden introducir inconsistencias. Los errores se acumulan sobre cadenas de razonamiento extendidas, y los modelos a menudo realizan autovisiones innecesarias, lo que lleva a la degradación del rendimiento en lugar de una mejora. Si la escala de tiempo de prueba debe ser una solución efectiva, debe equilibrar la profundidad del razonamiento con precisión, asegurando que los recursos computacionales se usen de manera eficiente sin disminuir la efectividad del modelo.
Los enfoques actuales para la escala del tiempo de prueba caen principalmente en categorías secuenciales y paralelas. La escala secuencial extiende la cadena de pensamiento (COT) durante la inferencia, esperando que el razonamiento más extendido conduzca a una mayor precisión. Sin embargo, los estudios en modelos como QWQ, Deepseek-R1 (R1) y la limusina indican que la extensión de COTS no produce consistentemente mejores resultados. Estos modelos frecuentemente utilizan la autorevisión, introduciendo cálculos redundantes que degradan el rendimiento. En contraste, la escala paralela genera múltiples soluciones simultáneamente y selecciona la mejor basada en un criterio predeterminado. Los análisis comparativos sugieren que la escala paralela es más efectiva para mantener la precisión y la eficiencia.
Investigadores de la Universidad de Fudan y el Laboratorio de AI de Shanghai introdujeron un método innovador llamado “voto mayoritario más corto” para abordar las limitaciones de la escala secuencial. Este método optimiza la escala del tiempo de prueba aprovechando el cálculo paralelo mientras se factura en la longitud de la solución. La idea principal detrás de este enfoque es que las soluciones más cortas tienden a ser más precisas que las más largas, ya que contienen menos autovisiones innecesarias. Al incorporar la longitud de la solución en el proceso de votación mayoritario, este método mejora el rendimiento de los modelos al priorizar respuestas frecuentes y concisas.
El método propuesto modifica la votación mayoritaria tradicional al considerar el número y la duración de las soluciones. La votación mayoritaria convencional selecciona la respuesta más frecuente entre las soluciones generadas, mientras que el voto mayoritario más corto asigna mayor prioridad a las respuestas que aparecen a menudo pero que también son más cortas. El razonamiento detrás de este enfoque es que las soluciones más largas tienden a introducir más errores debido a las revisiones excesivas. Los investigadores encontraron que QWQ, R1 y la limusina generan respuestas cada vez más largas cuando se les solicita que refine sus soluciones, lo que a menudo conduce a una precisión más baja. El método propuesto tiene como objetivo filtrar extensiones innecesarias y priorizar respuestas más precisas integrando la longitud como criterio.
Las evaluaciones experimentales demostraron que el método de voto mayoritario más corto superó significativamente la votación de la mayoría tradicional en múltiples puntos de referencia. En el conjunto de datos AIME, los modelos que incorporan esta técnica mostraron un aumento en la precisión en comparación con los enfoques de escala de tiempo de prueba existentes. Por ejemplo, se observaron mejoras de precisión en R1-Distill-32b, que alcanzó el 72.88% en comparación con los métodos convencionales. Del mismo modo, QWQ y Limo también exhibieron un rendimiento mejorado, particularmente en los casos en que las cadenas de razonamiento extendidas previamente condujeron a inconsistencias. Estos hallazgos sugieren que la suposición de que las soluciones más largas siempre producen mejores resultados es defectuoso. En cambio, un enfoque estructurado y eficiente que prioriza la concisión puede conducir a un rendimiento superior.
Los resultados también revelaron que la escala secuencial sufre de rendimientos decrecientes. Si bien las revisiones iniciales pueden contribuir a respuestas mejoradas, las revisiones excesivas a menudo introducen errores en lugar de corregirlas. En particular, modelos como QWQ y R1-Distill-1.5b tendieron a cambiar las respuestas correctas en las incorrectas en lugar de mejorar la precisión. Este fenómeno destaca aún más las limitaciones de la escala secuencial, lo que refuerza el argumento de que un enfoque más estructurado, como el voto mayoritario más corto, es necesario para optimizar la escala del tiempo de prueba.
La investigación subraya la necesidad de repensar cómo se aplica la escala en el tiempo de prueba en modelos de idiomas grandes. En lugar de asumir que extender las cadenas de razonamiento conduce a una mejor precisión, los hallazgos demuestran que priorizar soluciones concisas y de alta calidad a través de la escala paralela es una estrategia más efectiva. La introducción del voto mayoritario más corto proporciona una mejora práctica y empíricamente validada sobre los métodos existentes, ofreciendo un enfoque refinado para optimizar la eficiencia computacional en LLM. Al centrarse en el razonamiento estructurado en lugar de la autorevisión excesiva, este método allana el camino para una toma de decisiones de IA más confiable y precisa.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.