En los últimos dos años, las empresas han visto una necesidad cada vez mayor de desarrollar una metodología de priorización de proyectos para la IA generativa. No faltan casos de uso de IA generativa a considerar. Más bien, las empresas quieren evaluar el valor comercial frente al costo, el nivel de esfuerzo y otras preocupaciones, para una gran cantidad de posibles proyectos de IA generativa. Una nueva preocupación para la IA generativa en comparación con otros dominios es considerar cuestiones como las alucinaciones, los agentes de IA generativa que toman decisiones incorrectas y luego actúan en consecuencia a través de llamadas de herramientas a los sistemas posteriores, y lidiar con el panorama regulatorio que cambia rápidamente. En esta publicación describimos cómo incorporar prácticas responsables de IA en un método de priorización para abordar sistemáticamente este tipo de preocupaciones.
Descripción general de la IA responsable
El marco de buena arquitectura de AWS define la IA responsable como “la práctica de diseñar, desarrollar y utilizar tecnología de IA con el objetivo de maximizar los beneficios y minimizar los riesgos”. El marco de IA responsable de AWS comienza definiendo ocho dimensiones de la IA responsable: equidad, explicabilidad, privacidad y seguridad, protección, controlabilidad, veracidad y solidez, gobernanza y transparencia. En puntos clave del ciclo de vida del desarrollo, un equipo de IA generativa debe considerar los posibles daños o riesgos para cada dimensión (riesgos inherentes y residuales), implementar mitigaciones de riesgos y monitorear los riesgos de manera continua. La IA responsable se aplica a lo largo de todo el ciclo de vida del desarrollo y debe considerarse durante la priorización inicial del proyecto. Esto es especialmente cierto para los proyectos de IA generativa, donde hay nuevos tipos de riesgos a considerar y es posible que las mitigaciones no se comprendan o investiguen tan bien. Considerar la IA responsable desde el principio brinda una imagen más precisa del riesgo del proyecto y el nivel de esfuerzo de mitigación y reduce la posibilidad de retrabajos costosos si los riesgos se descubren más adelante en el ciclo de vida del desarrollo. Además de los proyectos potencialmente retrasados debido a la reelaboración, las preocupaciones no mitigadas también podrían dañar la confianza del cliente, provocar daños a la representación o no cumplir con los requisitos reglamentarios.
Priorización de IA generativa
Si bien la mayoría de las empresas tienen sus propios métodos de priorización, aquí demostraremos cómo utilizar el método de trabajo más corto ponderado primero (WSJF) del sistema Scaled Agile. WSJF asigna una prioridad utilizando esta fórmula:
Prioridad = (costo del retraso) / (tamaño del trabajo)
El costo del retraso es una medida del valor comercial. Incluye el valor directo (por ejemplo, ingresos adicionales o ahorros de costos), la puntualidad (por ejemplo, si enviar este proyecto vale mucho más hoy que dentro de un año) y las oportunidades adyacentes (por ejemplo, si la entrega de este proyecto abriría otras oportunidades en el futuro).
El tamaño del trabajo es donde se considera el nivel de esfuerzo para entregar el proyecto. Normalmente, eso incluye costos directos de desarrollo y el pago de cualquier infraestructura o software que necesite. El tamaño del trabajo es donde se pueden incluir los resultados de la evaluación inicial responsable de riesgos de IA y las mitigaciones esperadas. Por ejemplo, si la evaluación inicial descubre tres riesgos que requieren mitigación, se incluye el costo de desarrollo de esas mitigaciones en el tamaño del trabajo. También se puede evaluar cualitativamente que un proyecto con diez riesgos de alta prioridad es más complejo que un proyecto con sólo dos riesgos de alta prioridad.
Escenario de ejemplo
Ahora, veamos un ejercicio de priorización que compara dos proyectos de IA generativa. El primer proyecto utiliza un modelo de lenguaje grande (LLM) para generar descripciones de productos. Un equipo de marketing utilizará esta aplicación para crear automáticamente descripciones de producción que se incluirán en el sitio web del catálogo de productos en línea. El segundo proyecto utiliza un modelo de texto a imagen para generar nuevas imágenes para campañas publicitarias y el catálogo de productos. El equipo de marketing utilizará esta aplicación para crear más rápidamente activos de marca personalizados.
Priorización de primer paso
Primero, analizaremos el método de priorización sin considerar la IA responsable, asignando una puntuación de 1 a 5 para cada parte de la fórmula WSJF. Las puntuaciones específicas varían según la organización. Algunas empresas prefieren utilizar tallas de camiseta (S, M, L y XL), otras prefieren una puntuación de 1 a 5 y otras utilizarán una puntuación más granular. Una puntuación de 1 a 5 es una forma común y sencilla de comenzar. Por ejemplo, las puntuaciones de valor directo se pueden calcular como:
1 = sin valor directo
2 = 20% de mejora en KPI (tiempo para crear descripciones de alta calidad)
3 = 40% de mejora en KPI
4 = 80% de mejora en KPI
5 = 100% o más de mejora en KPI
Proyecto 1: Descripciones de productos automatizadas (puntuación de 1 a 5) Proyecto 2: Creación de activos visuales de marca (puntuación de 1 a 5) Valor directo 3: Ayuda al equipo de marketing a crear descripciones de mayor calidad más rápidamente 3: Ayuda al equipo de marketing a crear activos de mayor calidad más rápidamente Puntualidad 2: No es particularmente urgente 4: Nueva campaña publicitaria planificada para este trimestre; sin este proyecto, no puede crear suficientes activos de marca sin contratar una nueva agencia para complementar el equipo. Oportunidades adyacentes 2: podría reutilizarse en escenarios similares) 3: la experiencia adquirida en la generación de imágenes generará competencia para proyectos futuros Tamaño del trabajo 2: patrón básico y conocido 2: patrón básico y conocido Puntuación (3+2+2)/2 = 3,5 (3+4+3)/2 = 5
A primera vista, parece que el Proyecto 2 es más convincente. Intuitivamente, eso tiene sentido: a las personas les lleva mucho más tiempo crear imágenes de alta calidad que crear descripciones textuales de productos.
Evaluación de riesgos
Ahora repasemos una evaluación de riesgos para cada proyecto. La siguiente tabla enumera una breve descripción general del resultado de una evaluación de riesgos en cada una de las dimensiones de IA responsable de AWS, junto con un nivel de gravedad de talla de camiseta (S, M, L y XL). La tabla también incluye mitigaciones sugeridas.
Proyecto 1: Descripciones de productos automatizadas Proyecto 2: Creación de activos visuales de marca Equidad L: ¿Son las descripciones apropiadas en términos de género y demografía? Mitigar usando barandillas. L: Las imágenes no deben representar datos demográficos concretos de forma sesgada. Mitigar mediante controles humanos y automatizados. Explicabilidad No se identificaron riesgos. No se identificaron riesgos. Privacidad y seguridad L: Parte de la información del producto es patentada y no puede incluirse en un sitio público. Mitigar mediante la gobernanza de datos. L: El modelo no debe entrenarse en ninguna imagen que contenga información de propiedad exclusiva. Mitigar mediante la gobernanza de datos. Seguridad M: El lenguaje debe ser apropiado para la edad y no cubrir temas ofensivos. Mitigar usando barandillas. L: Las imágenes no deben contener contenido para adultos ni imágenes de drogas, alcohol o armas. Mitigar usando barandillas. Controlabilidad S: Necesidad de realizar un seguimiento de los comentarios de los clientes sobre las descripciones. Mitigar mediante la recopilación de comentarios de los clientes. L: ¿Las imágenes se alinean con nuestras pautas de marca? Mitigar mediante controles humanos y automatizados. Veracidad y robustez M: ¿El sistema alucinará e implicará capacidades del producto que no son reales? Mitigar usando barandillas. L: ¿Son las imágenes lo suficientemente realistas como para evitar efectos de valles extraños? Mitigar mediante controles humanos y automatizados. Gobernanza M: Prefiera proveedores de LLM que ofrezcan indemnización por derechos de autor. Mitigar mediante la selección de proveedores de LLM. L: Requerir indemnización por derechos de autor y atribución de la fuente de la imagen. Mitigar mediante la selección de proveedores de modelos. Transparencia S: Divulgar que las descripciones se generan con IA. S: Divulgar que las descripciones son generadas por IA.
Los riesgos y mitigaciones son específicos de cada caso de uso. La tabla anterior tiene únicamente fines ilustrativos.
Priorización del segundo pase
¿Cómo afecta la evaluación de riesgos a la priorización?
Proyecto 1: Descripciones de productos automatizadas (puntuación de 1 a 5) Proyecto 2: Creación de activos visuales de marca (puntuación de 1 a 5) Tamaño del trabajo 3: Patrón básico y conocido; requiere barreras de seguridad, gobernanza y recopilación de comentarios bastante estándar. 5: Patrón básico y conocido. Requiere barreras de protección de imágenes avanzadas con supervisión humana y un modelo comercial más caro. Se necesita un aumento en la investigación. Puntuación (3+2+2)/3 = 2,3 (3+4+3)/5 = 2
Ahora parece que el Proyecto 1 es mejor para empezar. Intuitivamente, después de considerar la IA responsable, eso tiene sentido. Las imágenes mal diseñadas u ofensivas son más notorias y tienen un mayor impacto que una descripción de producto mal redactada. Y las barreras que puede utilizar para mantener la seguridad de la imagen son menos maduras que las barreras equivalentes para el texto, especialmente en casos ambiguos como el cumplimiento de las pautas de la marca. De hecho, un sistema de barrera de imágenes podría requerir entrenar un modelo de monitoreo o utilizar personas para verificar algún porcentaje de la salida. Es posible que primero deba dedicar un pequeño equipo científico a estudiar este problema.
Conclusión
En esta publicación, vio cómo incluir consideraciones de IA responsable en un método de priorización de proyectos de IA generativa. Viste cómo realizar una evaluación responsable de los riesgos de la IA en la fase inicial de priorización puede cambiar el resultado al descubrir una cantidad sustancial de trabajo de mitigación. En el futuro, usted debe desarrollar su propia política de IA responsable y comenzar a adoptar prácticas de IA responsable para proyectos de IA generativa. Puede encontrar detalles y recursos adicionales en Transformar la IA responsable de la teoría a la práctica.
Sobre el autor
Randy DeFauw es arquitecto principal de soluciones sénior en AWS. Tiene más de 20 años de experiencia en tecnología, comenzando con su trabajo universitario sobre vehículos autónomos. Ha trabajado con y para clientes que van desde nuevas empresas hasta empresas Fortune 50, lanzando aplicaciones de Big Data y Machine Learning. Tiene un MSEE y un MBA, se desempeña como asesor de la junta directiva de iniciativas educativas STEM K-12 y ha hablado en conferencias importantes, incluidas Strata y GlueCon. Es coautor de los libros SageMaker Best Practices y Generative AI Cloud Solutions. Randy actualmente actúa como asesor técnico del director de tecnología de AWS en Norteamérica.