Salesforce AI Research presenta nuevos puntos de referencia, barandillas y arquitecturas de modelos para avanzar en agentes de IA confiables y capaces

La investigación de Salesforce AI ha esbozado una hoja de ruta integral para construir agentes de IA más inteligentes, confiables y versátiles. La iniciativa reciente se centra en abordar las limitaciones fundamentales en los sistemas de IA actuales, particularmente su desempeño inconsistente de tareas, falta de robustez y desafíos en la adaptación a flujos de trabajo empresariales complejos. Al introducir nuevos puntos de referencia, arquitecturas de modelos y mecanismos de seguridad, Salesforce está estableciendo un marco de múltiples capas para escalar sistemas de agente de manera responsable.

Abordar la “inteligencia irregular” a través de puntos de referencia específicos

Uno de los desafíos centrales destacados en esta investigación es qué términos de Salesforce inteligencia irregular: El comportamiento errático de los agentes de IA en tareas de complejidad similar. Para diagnosticar y reducir sistemáticamente este problema, el equipo introdujo el SIMPLE punto de referencia. Este conjunto de datos contiene 225 preguntas sencillas orientadas al razonamiento que los humanos responden con una consistencia casi perfecta, pero siguen siendo no triviales para los modelos de idiomas. El objetivo es revelar brechas en la capacidad de los modelos para generalizar a través de problemas aparentemente uniformes, particularmente en escenarios de razonamiento del mundo real.

Complementar simple es ContextualjudgeBenchque evalúa la capacidad de un agente para mantener la precisión y la fidelidad en las respuestas específicas del contexto. Este punto de referencia enfatiza no solo la corrección objetiva sino también la capacidad del agente para reconocer cuándo abstenerse de responder, un rasgo importante para aplicaciones sensibles a la confianza, como dominios legales, financieros y de atención médica.

Fortalecer la seguridad y la robustez con los mecanismos de confianza

Reconociendo la importancia de la confiabilidad de la IA en los entornos empresariales, Salesforce está expandiendo su Capa de confianza con nuevas salvaguardas. El SFR-GUARD Model Family ha sido entrenado en datos de dominio abierto y específicos de dominio (CRM) para detectar inyecciones rápidas, resultados tóxicos y contenido alucinado. Estos modelos sirven como filtros dinámicos, lo que respalda la inferencia en tiempo real con las capacidades de moderación contextual.

Otro componente, Crmarenaes un conjunto de evaluación basado en simulación diseñado para probar el rendimiento del agente en condiciones que imitan los flujos de trabajo de CRM reales. Esto garantiza que los agentes de IA puedan generalizar más allá de las indicaciones de capacitación y operar predecible en tareas empresariales variadas.

Familias de modelos especializados para razonamiento y acción

Para apoyar el comportamiento más estructurado y dirigido por objetivos en los agentes, Salesforce introdujo dos nuevas familias modelo: xlam y Taco.

El XLAM (modelos extendidos de lenguaje y acción) La serie está optimizada para uso de herramientas, interacción múltiple y llamadas de funciones. Estos modelos varían en escala (de 1B a 200b+ parámetros) y están construidos para admitir implementaciones de grado empresarial, donde la integración con API y fuentes de conocimiento internas es esencial.

Taco (optimización de la cadena de pensamiento y acción) Los modelos tienen como objetivo mejorar las capacidades de planificación de agentes. Al modelar explícitamente los pasos de razonamiento intermedio y las acciones correspondientes, TACO mejora la capacidad del agente para descomponer los objetivos complejos en secuencias de operaciones. Esta estructura es particularmente relevante para casos de uso como automatización de documentos, análisis y sistemas de soporte de decisiones.

Agentes operativos a través de Agentforce

Estas capacidades se están unificando bajo Fuerza de agentePlataforma de Salesforce para construir e implementar agentes autónomos. La plataforma incluye un código sin código Generador de agentesque permite a los desarrolladores y expertos en dominios especificar comportamientos y restricciones de agentes utilizando lenguaje natural. La integración con el ecosistema más amplio de Salesforce garantiza que los agentes puedan acceder a los datos del cliente, invocar flujos de trabajo y seguir siendo auditables.

Un estudio realizado por Valoir encontró que los equipos que usan Agentforce pueden construir agentes listos para la producción. 16 veces más rápido en comparación con los enfoques de software tradicionales, al tiempo que mejora la precisión operativa en hasta un 75%. Es importante destacar que los agentes de Agentforce están integrados dentro de la capa de confianza de Salesforce, heredando las características de seguridad y cumplimiento requeridas en contextos empresariales.

Conclusión

La agenda de investigación de Salesforce refleja un cambio hacia el desarrollo de IA más deliberado y consciente de la arquitectura. Al combinar evaluaciones específicas, modelos de seguridad de grano fino y arquitecturas especialmente diseñadas para razonamiento y acción, la compañía está sentando las bases para los sistemas de agente de próxima generación. Estos avances no solo son técnicos sino estructurales: enfatizando la confiabilidad, adaptabilidad y alineación con las necesidades matizadas del software empresarial.


Mira el Detalle técnico. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 [Register Now] Conferencia virtual de Minicon sobre AI agente: registro gratuito + Certificado de asistencia + Evento corto de 4 horas (21 de mayo, 9 am- 1 pm PST) + Hands on Workshop


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.