Generar ilustraciones listas para publicar es un cuello de botella que requiere mucha mano de obra en el flujo de trabajo de la investigación. Si bien los científicos de IA ahora pueden manejar revisiones de literatura y códigos, tienen dificultades para comunicar visualmente descubrimientos complejos. Un equipo de investigación de Google y la Universidad de Pekín presenta un nuevo marco llamado ‘PaperBanana’ que está cambiando eso mediante el uso de un sistema multiagente para automatizar diagramas y gráficos académicos de alta calidad.
5 agentes especializados: la arquitectura
PaperBanana no se basa en un único mensaje. Orquesta un equipo colaborativo de 5 agentes para transformar texto sin formato en imágenes profesionales.
Fase 1: Planificación lineal
Agente recuperador: Identifica los 10 ejemplos de referencia más relevantes de una base de datos para guiar el estilo y la estructura. Agente planificador: traduce el texto de metodología técnica en una descripción textual detallada de la figura objetivo. Agente estilista: actúa como consultor de diseño para garantizar que el resultado coincida con el “aspecto NeurIPS” utilizando paletas de colores y diseños específicos.
Fase 2: Refinamiento iterativo
Agente visualizador: transforma la descripción en una salida visual. Para los diagramas, utiliza modelos de imágenes como Nano-Banana-Pro. Para gráficos estadísticos, escribe código Python Matplotlib ejecutable. Agente crítico: inspecciona la imagen generada comparándola con el texto fuente para encontrar errores factuales o fallas visuales. Proporciona retroalimentación para 3 rondas de refinamiento.
Superando el punto de referencia NeurIPS 2025
El equipo de investigación presentó PaperBananaBench, un conjunto de datos de 292 casos de prueba seleccionados a partir de publicaciones reales de NeurIPS 2025. Utilizando un enfoque de VLM como juez, compararon PaperBanana con líneas de base líderes.
El sistema sobresale en los diagramas de ‘Agente y Razonamiento’, logrando una puntuación general del 69,9%. También proporciona una ‘Pauta estética’ automatizada que favorece los ‘pasteles tecnológicos suaves’ sobre los colores primarios duros.
Gráficos estadísticos: código versus imagen
Los gráficos estadísticos requieren una precisión numérica de la que a menudo carecen los modelos de imágenes estándar. PaperBanana resuelve esto haciendo que el Agente Visualizador escriba código en lugar de dibujar píxeles.
Generación de imágenes: Destaca en estética pero a menudo sufre de ‘alucinaciones numéricas’ o elementos repetidos. Generación basada en código: garantiza el 100% de fidelidad de los datos mediante el uso de la biblioteca Matplotlib para representar el gráfico final.
Preferencias estéticas de dominio específico en la investigación de IA
Según la guía de estilo PaperBanana, las elecciones estéticas a menudo cambian según el ámbito de investigación para satisfacer las expectativas de las diferentes comunidades académicas.
Comparación de paradigmas de visualización
Para los gráficos estadísticos, el marco destaca una clara compensación entre el uso de un modelo de generación de imágenes (IMG) y un código ejecutable (Coding).
Conclusiones clave
Marco de colaboración de múltiples agentes: PaperBanana es un sistema basado en referencias que organiza cinco agentes especializados (retriever, planificador, estilista, visualizador y crítico) para transformar texto técnico sin procesar y subtítulos en diagramas metodológicos y gráficos estadísticos con calidad de publicación. Proceso de generación de fase dual: el flujo de trabajo consta de una fase de planificación lineal para recuperar ejemplos de referencia y establecer pautas estéticas, seguida de un bucle de refinamiento iterativo de 3 rondas donde el agente crítico identifica errores y el agente visualizador regenera la imagen para una mayor precisión. Rendimiento superior en PaperBananaBench: evaluado en 292 casos de prueba de NeurIPS 2025, el marco superó las líneas de base básicas en puntuación general (+17,0%), concisión (+37,2%), legibilidad (+12,9%) y estética (+6,6%). Gráficos estadísticos centrados en la precisión: para datos estadísticos, el sistema cambia de la generación directa de imágenes al código ejecutable Python Matplotlib; Este enfoque híbrido garantiza la precisión numérica y elimina las “alucinaciones” comunes en los generadores de imágenes de IA estándar.
Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.