Google ha publicado la segunda entrega en su Agentes compañero Serie: un documento técnico de 76 páginas en profundidad Dirigido a profesionales que desarrollan sistemas avanzados de agentes de IA. Sobre la base de conceptos fundamentales del primer lanzamiento, esta nueva edición se centra en la operación de los agentes a escala, con énfasis específico en la evaluación de agentes, la colaboración de múltiples agentes y la evolución de la generación de recuperación acoplada (TRAPO) en tuberías más adaptativas e inteligentes.
Trapo de agente: desde la recuperación estática hasta el razonamiento iterativo
En el centro de este lanzamiento se encuentra la evolución de las arquitecturas de trapo. Las tuberías tradicionales de RAG generalmente involucran consultas estáticas en las tiendas vectoriales seguidas de síntesis a través de modelos de idiomas grandes. Sin embargo, este enfoque lineal a menudo falla en la recuperación de información multiperspectiva o de múltiples saltos.
Trapo de agente Reframa el proceso introduciendo agentes de recuperación autónomos que razonen de forma iterativa y ajusten su comportamiento en función de los resultados intermedios. Estos agentes mejoran la precisión de la recuperación y la adaptabilidad a través de:
- Expansión de consulta consciente del contexto: Los agentes reformulan las consultas de búsqueda basadas dinámicamente en el contexto de tareas en evolución.
- Descomposición de varios pasos: Las consultas complejas se dividen en subtareas lógicas, cada una abordada en secuencia.
- Selección de fuente adaptativa: En lugar de consultar una tienda vectorial fija, los agentes seleccionan fuentes óptimas contextualmente.
- Verificación de hechos: Los agentes evaluadores dedicados validan el contenido recuperado para la consistencia y la base antes de la síntesis.
El resultado neto es una tubería de trapo más inteligente, capaz de responder a las necesidades de información matizadas en dominios de alto riesgo, como la atención médica, el cumplimiento legal e inteligencia financiera.
Evaluación rigurosa del comportamiento del agente
La evaluación del rendimiento de los agentes de IA requiere una metodología distinta de la utilizada para las salidas de LLM estáticas. El marco de Google separa la evaluación del agente en tres dimensiones principales:
- Evaluación de la capacidad: Comparación de la capacidad del agente para seguir instrucciones, planificar, razón y usar herramientas. Herramientas como AgentBench, PlanBench y BFCL se destacan para este propósito.
- Trayectoria y análisis de uso de herramientas: En lugar de centrarse únicamente en los resultados, se alienta a los desarrolladores a rastrear la secuencia de acción del agente (trayectoria) y compararla con el comportamiento esperado utilizando la precisión, el recuerdo y las métricas basadas en el partido.
- Evaluación de respuesta final: Evaluación de la producción del agente a través de autoraters, LLM que actúan como evaluadores) y métodos humanos en el circuito. Esto asegura que las evaluaciones incluyan tanto métricas objetivas como cualidades juzgadas por humanos, como la ayuda y el tono.
Este proceso permite la observabilidad en las capas de razonamiento y ejecución de los agentes, lo cual es crítico para las implementaciones de producción.
Escala a arquitecturas de múltiples agentes
A medida que los sistemas del mundo real crecen en complejidad, el documento técnico de Google enfatiza un cambio hacia arquitecturas de múltiples agentesdonde los agentes especializados colaboran, se comunican y se autocorrecta.
Los beneficios clave incluyen:
- Razonamiento modular: Las tareas se descomponen en todos los agentes de planificador, retriever, albacea y validador.
- Tolerancia a fallas: Los controles redundantes y las transferencias de pares aumentan la confiabilidad del sistema.
- Escalabilidad mejorada: Los agentes especializados se pueden escalar o reemplazar independientemente.
Las estrategias de evaluación se adaptan en consecuencia. Los desarrolladores deben rastrear no solo el éxito final de la tarea sino también la calidad de la coordinación, el cumplimiento de los planes delegados y la eficiencia de utilización de agentes. El análisis de trayectoria sigue siendo la lente principal, extendida en múltiples agentes para la evaluación a nivel del sistema.
Aplicaciones del mundo real: desde la automatización empresarial hasta la IA automotriz
La segunda mitad del documento técnico se centra en los patrones de implementación del mundo real:
Agentspace y Notebooklm Enterprise
Google Espacio de agentes se introduce como una plataforma de orquestación y gobernanza de grado empresarial para sistemas de agentes. Admite la creación de agentes, la implementación y el monitoreo, incorporando la seguridad de Google Cloud y las primitivas IAM. Notebooklm Enterprise, un marco de asistente de investigación, permite resumen contextual, interacción multimodal y síntesis de información basada en audio.
Estudio de caso de AI automotriz
Lo más destacado del documento es un sistema de agente múltiple totalmente implementado dentro de un contexto de vehículo conectado. Aquí, los agentes están diseñados para tareas especializadas (navigación, mensajería, control de medios y soporte de usuarios) organizados con patrones de diseño como:
- Orquestación jerárquica: El agente central enruta tareas a expertos en dominios.
- Patrón de diamantes: Las respuestas son refinadas post-hoc por agentes de moderación.
- Traspaso de pares: Los agentes detectan la clasificación errónea y las consultas de redirios de forma autónoma.
- Síntesis colaborativa: Las respuestas se fusionan entre los agentes a través de un mezclador de respuesta.
- Bucle adaptativo: Los agentes refinan de manera iterada los resultados hasta que se logren los resultados satisfactorios.
Este diseño modular permite que los sistemas automotrices equilibren las tareas de baja latencia y en disposición (por ejemplo, control climático) con un razonamiento más intensivo en la nube (recomendaciones de restaurantes).
Mira el Guía completa aquí. Además, no olvides seguirnos Gorjeo.
Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.