Google propone Tumix: escala de tiempo de prueba de múltiples agentes con mezcla de uso de herramientas

¿Qué pasaría si, en lugar de volver a muestrear a un agente, podría llevar a Gemini-2.5 Pro al 34.1% en HLE mezclando 12-15 agentes de uso de herramientas que comparten notas y se detienen temprano? Google Cloud AI Research, con colaboradores de MIT, Harvard y Google Deepmind, introdujo Tumix (mezcla de uso de herramientas), un marco de tiempo de prueba que conjunto de estilos de agentes heterogéneos (solo texto, código, búsqueda, variantes guiadas) y les permite compartir respuestas intermedias durante algunas ronda de refinamiento, luego parar temprano a través de un juez basado en LLM. El resultado: mayor precisión a un costo más bajo en puntos de referencia de razonamiento difícil como HLE, GPQA-Diamond y AIME (2024/2025).

https://arxiv.org/pdf/2510.01279

Entonces, ¿qué es exactamente diferente?

Mezcla sobre modalidad, no solo más muestras: Tumix ejecuta ~ 15 estilos de agente que abarcan la cadena de pensamiento (COT), la ejecución del código, la búsqueda web, los agentes de doble herramienta y las variantes guiadas. Cada ronda, cada agente ve (a) la pregunta original y (b) las respuestas anteriores de otros agentes, luego propone una respuesta refinada. Este mensaje de mensajes aumenta la precisión promedio temprano, mientras que la diversidad colapsa gradualmente, por lo que detener los asuntos. El terminación temprana adaptativa: un refinamiento de LLM-as-Judge detiene una vez que las respuestas exhiben un fuerte consenso (con un umbral mínimo redondo). Esto conserva la precisión en ~ 49% del costo de inferencia frente al refinamiento de ronda fija; El costo del token cae a ~ 46% porque las rondas tardías son más pesadas. Agentes de diseño automático: más allá de los agentes hechos en humanos, Tumix le pide a la base LLM a generar nuevos tipos de agentes; Mezclarlos con el conjunto manual produce un aumento promedio adicional de ~+1.2% sin costo adicional. El “punto dulce” empírico es de ~ 12–15 estilos de agente.

https://arxiv.org/pdf/2510.01279

¿Cómo funciona?

Tumix ejecuta un grupo de agentes heterogéneos: la cadena de pensamiento de textos, ejecutación de código, búsqueda en la web y variantes guiadas, en paralelo, luego itera un pequeño número de rondas de refinamiento donde cada agente condiciona a la pregunta original además de las racionales y respuestas previas de los otros agentes (lo que se afirma notas estructuradas). Después de cada ronda, un juez con sede en LLM evalúa el consenso/consistencia para decidir la terminación temprana; Si la confianza es insuficiente, se desencadena otra ronda, de lo contrario, el sistema finaliza a través de una agregación simple (por ejemplo, voto mayoritario o selector). Este diseño de mezcla de uso de la mezcla intercambia un reamontaje de la fuerza bruta por diversas rutas de razonamiento, mejorando la cobertura de los candidatos correctos mientras controla los presupuestos de token/herramientas; Empíricamente, los beneficios saturan alrededor de 12-15 estilos de agente, y detener la diversidad temprana de la diversidad y reducir el costo sin sacrificar la precisión

Discutamos los resultados

Bajo presupuestos de inferencia comparables a líneas de base sólidas augeradas en herramientas (Self-MOA, Symbolic-Moe, Dei, Scimaster, GSA), Tumix produce la mejor precisión promedio; Una variante escalada (Tumix+) empuja aún más con más cálculo:

🚨 [Recommended Read] VIPE (Video Pose Engine): una herramienta de anotación de video 3D potente y versátil para AI espacial

HLE (último examen de la humanidad): Pro: 21.6% → 34.1% (Tumix+); Flash: 9.7% → 23.1%.
(HLE es un punto de referencia de 2,500 preguntas, difícil, de múltiples dominios finalizado en 2025.) GPQA-Diamond: Pro: hasta 88.3%; Flash: hasta 82.1%. (GPQA-Diamond es el subconjunto de 198 preguntas más difícil escrito por expertos en dominios). AIME 2024/25: PRO: 96.7%; Flash: 86.7% con Tumix (+) en el tiempo de prueba.

En todas las tareas, Tumix promedia +3.55% sobre la mejor línea de base de escalado de tiempo de prueba de prueba de herramienta anterior a un costo similar, y +7.8% / +17.4% sobre sin escala para Pro / Flash, respectivamente.

https://arxiv.org/pdf/2510.01279

Tumix es un gran enfoque de Google porque enmarca la escala del tiempo de prueba como un problema de búsqueda sobre las políticas de herramientas heterogéneas en lugar del muestreo de fuerza bruta. El comité paralelo (texto, código, búsqueda) mejora la cobertura de los candidatos, mientras que el jueces LLM permite la parada temprana que preserva la diversidad y reduce el gasto de token/herramienta, útil bajo presupuestos de latencia. Las ganancias de HLE (34.1% con Gemini-2.5 Pro) se alinean con el diseño finalizado de 2,500 preguntas del referencia, y el “punto dulce” del agente ~ 12-15 indica la selección, no generación, es el factor limitante.

Echa un vistazo al papel. No dude en consultar nuestra página de GitHub para obtener tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro subreddit de 100k+ ml y suscribirse a nuestro boletín. ¡Esperar! ¿Estás en Telegram? Ahora también puedes unirte a nosotros en Telegram.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🙌 Siga a MarkTechPost: agrégenos como una fuente preferida en Google.