Google AI presenta PaperBanana: un marco agente que automatiza diagramas de metodología y gráficos estadísticos listos para publicación

Generar ilustraciones listas para publicar es un cuello de botella que requiere mucha mano de obra en el flujo de trabajo de la investigación. Si bien los científicos de IA ahora pueden manejar revisiones de literatura y códigos, tienen dificultades para comunicar visualmente descubrimientos complejos. Un equipo de investigación de Google y la Universidad de Pekín presenta un nuevo marco llamado ‘PaperBanana’ que está cambiando eso mediante el uso de un sistema multiagente para automatizar diagramas y gráficos académicos de alta calidad.

https://dwzhu-pku.github.io/PaperBanana/

5 agentes especializados: la arquitectura

PaperBanana no se basa en un único mensaje. Orquesta un equipo colaborativo de 5 agentes para transformar texto sin formato en imágenes profesionales.

https://dwzhu-pku.github.io/PaperBanana/

Fase 1: Planificación lineal

Agente recuperador: Identifica los 10 ejemplos de referencia más relevantes de una base de datos para guiar el estilo y la estructura. Agente planificador: traduce el texto de metodología técnica en una descripción textual detallada de la figura objetivo. Agente estilista: actúa como consultor de diseño para garantizar que el resultado coincida con el “aspecto NeurIPS” utilizando paletas de colores y diseños específicos.

Agente visualizador: transforma la descripción en una salida visual. Para los diagramas, utiliza modelos de imágenes como Nano-Banana-Pro. Para gráficos estadísticos, escribe código Python Matplotlib ejecutable. Agente crítico: inspecciona la imagen generada comparándola con el texto fuente para encontrar errores factuales o fallas visuales. Proporciona retroalimentación para 3 rondas de refinamiento.

Superando el punto de referencia NeurIPS 2025

El equipo de investigación presentó PaperBananaBench, un conjunto de datos de 292 casos de prueba seleccionados a partir de publicaciones reales de NeurIPS 2025. Utilizando un enfoque de VLM como juez, compararon PaperBanana con líneas de base líderes.

Mejora de la métrica con respecto al valor inicial Puntuación general+17,0 % Concisión+37,2 % Legibilidad+12,9 % Estética+6,6 % Fidelidad+2,8 %

El sistema sobresale en los diagramas de ‘Agente y Razonamiento’, logrando una puntuación general del 69,9%. También proporciona una ‘Pauta estética’ automatizada que favorece los ‘pasteles tecnológicos suaves’ sobre los colores primarios duros.

Gráficos estadísticos: código versus imagen

Los gráficos estadísticos requieren una precisión numérica de la que a menudo carecen los modelos de imágenes estándar. PaperBanana resuelve esto haciendo que el Agente Visualizador escriba código en lugar de dibujar píxeles.

Generación de imágenes: Destaca en estética pero a menudo sufre de ‘alucinaciones numéricas’ o elementos repetidos. Generación basada en código: garantiza el 100% de fidelidad de los datos mediante el uso de la biblioteca Matplotlib para representar el gráfico final.

Preferencias estéticas de dominio específico en la investigación de IA

Según la guía de estilo PaperBanana, las elecciones estéticas a menudo cambian según el ámbito de investigación para satisfacer las expectativas de las diferentes comunidades académicas.

Dominio de investigaciónElementos clave de diseño visual ‘Vibe’Agente y razonamientoRobots vectoriales 2D ilustrativos, narrativos y “amigables”, avatares humanos, emojis y estética de “interfaz de usuario” (burbujas de chat, íconos de documentos)Visión por computadora y 3DS Conos de cámara espaciales, densos y geométricos (frustums), líneas de rayos, nubes de puntos y codificación de colores RGB para correspondencia de ejes Generación y aprendizaje Cuboides 3D modulares orientados al flujo para tensores, cuadrículas matriciales y estrategias de “zona” que utilizan rellenos pastel claros para agrupar la lógica Teoría y optimización Minimalista, abstracto, “libro de texto” Nodos gráficos (círculos), variedades (planos) y una paleta de escala de grises restringida con colores de resaltado únicos

Comparación de paradigmas de visualización

Para los gráficos estadísticos, el marco destaca una clara compensación entre el uso de un modelo de generación de imágenes (IMG) y un código ejecutable (Coding).

CaracterísticaGráficos mediante generación de imágenes (IMG)Gráficos mediante codificación (Matplotlib)EstéticaGeneralmente superior; las tramas parecen más “visualmente atractivas” Aspecto académico profesional y estándar FidelityLower; propenso a “alucinaciones numéricas” o repetición de elementos 100% precisa; representa estrictamente los datos sin procesar proporcionados. Legibilidad alta para datos escasos, pero tiene problemas con conjuntos de datos complejos. Consistentemente alta; maneja datos densos o de series múltiples sin errores

Conclusiones clave

Marco de colaboración de múltiples agentes: PaperBanana es un sistema basado en referencias que organiza cinco agentes especializados (retriever, planificador, estilista, visualizador y crítico) para transformar texto técnico sin procesar y subtítulos en diagramas metodológicos y gráficos estadísticos con calidad de publicación. Proceso de generación de fase dual: el flujo de trabajo consta de una fase de planificación lineal para recuperar ejemplos de referencia y establecer pautas estéticas, seguida de un bucle de refinamiento iterativo de 3 rondas donde el agente crítico identifica errores y el agente visualizador regenera la imagen para una mayor precisión. Rendimiento superior en PaperBananaBench: evaluado en 292 casos de prueba de NeurIPS 2025, el marco superó las líneas de base básicas en puntuación general (+17,0%), concisión (+37,2%), legibilidad (+12,9%) y estética (+6,6%). Gráficos estadísticos centrados en la precisión: para datos estadísticos, el sistema cambia de la generación directa de imágenes al código ejecutable Python Matplotlib; Este enfoque híbrido garantiza la precisión numérica y elimina las “alucinaciones” comunes en los generadores de imágenes de IA estándar.

Consulte el documento y el repositorio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Artículo anteriorCómo construir un sistema de IA agente de nivel de producción con recuperación híbrida, citas de procedencia primero, bucles de reparación y memoria episódica

Google AI presenta PaperBanana: un marco agente que automatiza diagramas de metodología y gráficos estadísticos listos para publicación

ByEquipo de 7 minutos

5 agentes especializados: la arquitectura

Fase 1: Planificación lineal

Fase 2: Refinamiento iterativo

Superando el punto de referencia NeurIPS 2025

Gráficos estadísticos: código versus imagen

Preferencias estéticas de dominio específico en la investigación de IA

Comparación de paradigmas de visualización

Conclusiones clave

By Equipo de 7 minutos

Related Post

Jugar a Connect Four con Deep Q-Learning

Cómo las herramientas de inteligencia artificial generan deuda técnica en los sistemas de IoT y qué hacer al respecto

Una implementación de codificación para explorar y analizar el conjunto de datos de TaskTrove con visualización de análisis de transmisión y detección de verificador

You missed

Satélite de la NASA revela qué tan rápido se está hundiendo la Ciudad de México: ScienceAlert

Un ‘socio’ de Leire Díez introduce en el juicio de Kitchen la teoría de la conspiración y acusa al fiscal Grinda de hackeo

Los bancos españoles reflexionan sobre el fin del código de seguridad de dígitos, la huella dactilar podría sustituirlo

Lindsey Vonn prevé un emotivo regreso a la Met Gala con los primeros pasos desde el devastador accidente olímpico