Google AI Research presenta PaperOrchestra: un marco de múltiples agentes para la redacción automatizada de artículos de investigación de IA

Escribir un trabajo de investigación es brutal. Incluso después de realizar los experimentos, un investigador todavía enfrenta semanas de traducir notas de laboratorio desordenadas, tablas de resultados dispersas e ideas a medio formar en un manuscrito pulido y lógicamente coherente, formateado precisamente según las especificaciones de una conferencia. Para muchos investigadores nuevos, ese trabajo de traducción es donde los artículos mueren.

Un equipo de Google Cloud AI Research propone ‘PaperOrchestra’, un sistema multiagente que convierte de forma autónoma materiales previos a la escritura no estructurados (un resumen aproximado de una idea y registros experimentales sin procesar) en un manuscrito LaTeX listo para enviar, completo con una revisión de la literatura, figuras generadas y citas verificadas por API.

https://arxiv.org/pdf/2604.05018

El problema central que está resolviendo

Los sistemas de escritura automatizados anteriores, como PaperRobot, podían generar secuencias de texto incrementales, pero no podían manejar toda la complejidad de una narrativa científica basada en datos. Los marcos de investigación autónomos de extremo a extremo más recientes, como AI Scientist-v1 (que introdujo la experimentación y la redacción automatizadas a través de plantillas de código) y su sucesor AI Scientist-v2 (que aumenta la autonomía mediante la búsqueda de árboles agentes) automatizan todo el ciclo de investigación, pero sus módulos de escritura están estrechamente acoplados a sus propios procesos experimentales internos. No puedes simplemente entregarles tus datos y esperar un documento. No son escritores independientes.

Mientras tanto, los sistemas especializados en revisiones de literatura, como AutoSurvey2 y LiRA, producen encuestas integrales pero carecen de la conciencia contextual para escribir una sección de Trabajo Relacionado específica que posicione claramente un nuevo método específico frente al estado de la técnica. CycleResearcher requiere una lista de referencias BibTeX estructurada preexistente como entrada (un artefacto que rara vez está disponible al comienzo de la escritura) y falla por completo en entradas no estructuradas.

El resultado es una brecha: ninguna herramienta existente podría tomar materiales ilimitados proporcionados por humanos (el tipo de cosas que un verdadero investigador podría tener después de terminar los experimentos) y producir por sí sola un manuscrito completo y riguroso. PaperOrchestra está diseñada específicamente para llenar ese vacío.

https://arxiv.org/pdf/2604.05018

Cómo funciona el oleoducto

PaperOrchestra organiza cinco agentes especializados que trabajan en secuencia, dos de ellos ejecutándose en paralelo:

Paso 1: Agente de esquema: este agente lee el resumen de la idea, el registro experimental, la plantilla de la conferencia LaTeX y las pautas de la conferencia, luego produce un esquema JSON estructurado. Este esquema incluye un plan de visualización (que especifica qué diagramas y diagramas generar), una estrategia de búsqueda de literatura específica que separa el contexto de nivel macro para la Introducción de los grupos de metodología de nivel micro para el Trabajo Relacionado, y un plan de redacción a nivel de sección con sugerencias de citas para cada conjunto de datos, optimizador, métrica y método de referencia mencionados en los materiales.

Pasos 2 y 3: Agente de trazado y Agente de revisión de literatura (paralelo): El Agente de trazado ejecuta el plan de visualización utilizando PaperBanana, una herramienta de ilustración académica que utiliza un modelo crítico de visión-lenguaje (VLM) para evaluar las imágenes generadas con respecto a los objetivos de diseño y revisarlas de forma iterativa. Simultáneamente, el Agente de Revisión de Literatura lleva a cabo un proceso de citas de dos fases: utiliza un LLM equipado con búsqueda web para identificar los artículos candidatos, luego verifica cada uno a través de la API Semantic Scholar, verifica si hay una coincidencia de título difusa válida usando la distancia de Levenshtein, recupera el resumen y los metadatos, y aplica un límite temporal vinculado a la fecha límite de presentación de la conferencia. Se descartan referencias alucinadas o no comprobables. Las citas verificadas se compilan en un archivo BibTeX y el agente las utiliza para redactar las secciones de Introducción y Trabajo relacionado, con la estricta restricción de que al menos el 90 % de la literatura recopilada debe citarse activamente.

Paso 4: Agente de redacción de secciones: este agente toma todo lo generado hasta el momento (el esquema, las citas verificadas, las figuras generadas) y escribe las secciones restantes: resumen, metodología, experimentos y conclusiones. Extrae valores numéricos directamente del registro experimental para construir tablas e integra las figuras generadas en la fuente LaTeX.

Paso 5: Agente de refinamiento de contenido: utilizando AgentReview, un sistema de revisión por pares simulado, este agente optimiza iterativamente el manuscrito. Después de cada revisión, el manuscrito se acepta solo si la puntuación general de AgentReview aumenta o se relaciona con ganancias netas no negativas del subeje. Cualquier disminución de la puntuación general provoca una reversión y una parada inmediata. Los resultados de la ablación muestran que este paso es fundamental: los manuscritos refinados dominan los borradores no refinados con tasas de éxito del 79 % al 81 % en comparaciones automatizadas lado a lado, y ofrecen ganancias absolutas en la tasa de aceptación de +19 % en CVPR y +22 % en ICLR en simulaciones de AgentReview.

El proceso completo realiza aproximadamente entre 60 y 70 llamadas a la API de LLM y se completa en un promedio de 39,6 minutos por artículo, solo alrededor de 4,5 minutos más que los 35,1 minutos de AI Scientist-v2, a pesar de ejecutar significativamente más llamadas de LLM (40 a 45 para AI Scientist-v2 frente a 60 a 70 para PaperOrchestra).

El punto de referencia: PaperWritingBench

El equipo de investigación también presenta PaperWritingBench, descrito como el primer punto de referencia estandarizado específicamente para la redacción de artículos de investigación sobre IA. Contiene 200 artículos aceptados de CVPR 2025 e ICLR 2025 (100 de cada lugar), seleccionados para probar la adaptación a diferentes formatos de conferencias: doble columna para CVPR versus una sola columna para ICLR.

Para cada artículo, se utilizó un LLM para aplicar ingeniería inversa a dos entradas del PDF publicado: un Resumen de ideas dispersas (descripción conceptual de alto nivel, sin matemáticas ni LaTeX) y un Resumen de ideas densas (que conserva definiciones formales, funciones de pérdida y ecuaciones de LaTeX), junto con un Registro experimental derivado de la extracción de todos los datos numéricos y la conversión de conocimientos de figuras en observaciones fácticas independientes. Todos los materiales fueron completamente anónimos, eliminando los nombres de los autores, títulos, citas y referencias de figuras.

Este diseño aísla la tarea de escritura de cualquier proceso experimental específico, utilizando artículos reales aceptados como verdad básica, y revela algo importante. En cuanto a la calidad general del papel, la configuración de ideas Densa supera sustancialmente a la Escasa (tasas de éxito del 43% al 56% frente al 18% al 24%), ya que descripciones de metodología más precisas permiten una redacción de secciones más rigurosa. Pero para la calidad de la revisión de la literatura, las dos configuraciones son casi iguales (escasa: 32 % –40 %, densa: 28 % –39 %), lo que significa que el agente de revisión de la literatura puede identificar de forma autónoma lagunas en la investigación y citas relevantes sin depender de aportes humanos con muchos detalles.

Los resultados

En evaluaciones automatizadas lado a lado (SxS) que utilizaron Gemini-3.1-Pro y GPT-5 como modelos de evaluación, PaperOrchestra dominó la calidad de la revisión de la literatura, logrando márgenes de ganancia absolutos del 88% al 99% sobre las líneas de base de IA. En cuanto a la calidad general del papel, superó a AI Scientist-v2 entre un 39% y un 86% y al agente único entre un 52% y un 88% en todas las configuraciones.

La evaluación humana, realizada con 11 investigadores de IA en 180 comparaciones de manuscritos pareados, confirmó los resultados automatizados. PaperOrchestra logró márgenes de tasa de ganancia absoluta del 50 % al 68 % con respecto a las líneas de base de IA en la calidad de la revisión de la literatura y del 14 % al 38 % en la calidad general del manuscrito. También logró una tasa de empate/ganancia del 43% frente a la verdad básica escrita por humanos en la síntesis de literatura, un resultado notable para un sistema totalmente automatizado.

Las cifras de cobertura de citas cuentan una historia particularmente clara. Las líneas de base de AI promediaron solo 9,75 a 14,18 citas por artículo, inflando sus puntajes F1 en la categoría de referencia de cita obligada (P0) y dejando el recuerdo de “buena cita” (P1) cerca de cero. PaperOrchestra generó un promedio de 45,73 a 47,98 citas, lo que refleja fielmente las ~59 citas encontradas en artículos escritos por humanos, y mejoró la recuperación de P1 entre un 12,59 % y un 13,75 % con respecto a las líneas de base más sólidas.

Bajo el marco de evaluación ScholarPeer, PaperOrchestra logró tasas de aceptación simuladas del 84 % en CVPR y del 81 % en ICLR, en comparación con tasas de verdad sobre el terreno creadas por humanos del 86 % y 94 % respectivamente. Superó la base de referencia autónoma más sólida con ganancias de aceptación absoluta del 13% en CVPR y del 9% en ICLR.

En particular, incluso cuando PaperOrchestra genera sus propias figuras de forma autónoma desde cero (modo PlotOn) en lugar de utilizar figuras creadas por humanos (modo PlotOff), logra empates o victorias en entre el 51 % y el 66 % de los enfrentamientos lado a lado, a pesar de que PlotOff tiene una ventaja de información inherente, ya que las figuras creadas por humanos a menudo incorporan resultados complementarios que no están presentes en los registros experimentales sin procesar.

Conclusiones clave

Es un escritor independiente, no un robot de investigación. PaperOrchestra está diseñado específicamente para trabajar con sus materiales (un resumen de ideas aproximado y registros experimentales sin procesar) sin necesidad de realizar experimentos. Esta es una solución directa a la mayor limitación de los sistemas existentes como AI Scientist-v2, que solo escriben artículos como parte de sus propios ciclos de investigación internos. La calidad de las citas, no sólo el número de ellas, es el verdadero diferenciador. Los sistemas competidores promediaron entre 9 y 14 citas por artículo, lo que suena aceptable hasta que te das cuenta de que eran casi en su totalidad referencias obvias que “deben citarse”. PaperOrchestra promedió entre 45 y 48 citas por artículo, igualando los artículos escritos por humanos (~59) y mejoró drásticamente la cobertura del panorama académico más amplio: las referencias “buenas para citar” que indican una profundidad académica genuina. La especialización con múltiples agentes supera consistentemente las indicaciones de un solo agente. PaperOrchestra superó la línea de base de agente único (una convocatoria de LLM monolítica con las mismas materias primas) entre un 52 % y un 88 % en calidad general del papel. Los cinco agentes especializados del marco, la ejecución paralela y el ciclo de refinamiento iterativo están haciendo un trabajo que ningún mensaje, independientemente de su calidad, puede replicar. El Agente de Refinamiento de Contenido no es opcional. Las ablaciones muestran que eliminar el ciclo iterativo de revisión por pares provoca una caída dramática de la calidad. Los manuscritos refinados superan a los borradores no refinados entre un 79% y un 81% de las veces en comparaciones lado a lado, con tasas de aceptación simuladas que aumentan un +19% en CVPR y un +22% en ICLR. Este solo paso es responsable de convertir un borrador funcional en algo listo para enviar. Los investigadores humanos todavía están al tanto, y deben estarlo. El sistema explícitamente no puede fabricar nuevos resultados experimentales y su agente de refinamiento recibe instrucciones de ignorar las solicitudes de los revisores de datos que no existen en el registro experimental. Los autores posicionan a PaperOrchestra como una herramienta de asistencia avanzada, en la que los investigadores humanos conservan la total responsabilidad por la precisión, originalidad y validez del manuscrito final.

Consulte la página del artículo y del proyecto. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros