Necesitamos elevar el nivel de exigencia para los gerentes de productos de inteligencia artificial | por Julia Winn

Cómo dejar de culpar al «modelo» y empezar a crear productos de IA exitosos

Imagen generada por el autor utilizando Midjourney

Los gerentes de producto son responsables de decidir qué construir y de asumir los resultados de sus decisiones. Esto se aplica a todos los tipos de productos, incluidos aquellos que funcionan con IA. Sin embargo, durante la última década, ha sido una práctica común que los gerentes de producto traten los modelos de IA como cajas negras, desviando la responsabilidad de los malos resultados a los desarrolladores de modelos.

PM: No sé por qué el modelo hace eso, pregúntele al desarrollador del modelo.

Este comportamiento tiene tanto sentido como culpar al diseñador por las malas cifras de registro después de un rediseño del sitio. Las empresas de tecnología suponen que los administradores de proyectos que trabajan en productos de consumo tienen la intuición para tomar decisiones informadas sobre los cambios de diseño y tomarlas en cuenta. propiedad de los resultados.

Entonces, ¿por qué este enfoque de no intervención en la IA es la norma?

El problema: los directores de proyectos tienen incentivos para mantener su distancia del proceso de desarrollo del modelo.

Este enfoque práctico más riguroso es lo que ayuda a garantizar que los modelos aterricen con éxito y brinden la mejor experiencia a los usuarios.

Un enfoque práctico requiere:

Más conocimientos y comprensión técnica.
Asumir más riesgos y responsabilidades por cualquier problema conocido o desventaja presente en el momento del lanzamiento.
2 a 3 veces más tiempo y esfuerzo: crear conjuntos de datos de evaluación para medir sistemáticamente el comportamiento del modelo puede llevar desde horas hasta semanas.

¿No estás seguro de qué es una evaluación? Consulta mi publicación sobre ¿Qué es exactamente una “evaluación” y por qué debería importarle a los gerentes de producto?.

Nueve de cada diez veces, cuando el lanzamiento de un modelo fracasa, se adoptó una estrategia de no intervención. Esto es menos frecuente en el caso de las grandes empresas con una larga trayectoria en la implementación de IA en productos, como Netflix, Google, Meta y Amazon, pero este artículo no es para ellas.

Sin embargo, superar la inercia de la estrategia de no intervención puede ser un desafío. Esto es especialmente cierto cuando la dirección de la empresa no espera nada más, y un gerente de proyecto puede incluso enfrentar resistencia por “ralentizar” el ciclo de desarrollo al adoptar prácticas prácticas.

Imaginemos a un gerente de proyectos de un mercado como Amazon encargado de desarrollar un sistema de recomendación de paquetes de productos para padres. Consideremos los dos enfoques.

Requisitos del modelo para la gestión de proyectos de IA sin intervención

Objetivo: Aumentar las compras.

Evaluación: Lo que el desarrollador del modelo considere mejor.

Métricas: utilice una prueba A/B para decidir si implementamos la solución al 100 % de los usuarios si hay alguna mejora en la tasa de compra con significancia estadística.

Requisitos del modelo: gestión práctica de la inteligencia artificial

Objetivo: Ayudar a los padres a descubrir productos de calidad que no sabían que necesitaban para facilitar su camino como padres.

Métricas: La métrica principal es el impulso a las compras de productos por parte de los padres de niños pequeños. Las métricas secundarias a largo plazo que monitorearemos son la tasa de compras repetidas de las marcas descubiertas por primera vez en el paquete y la diversidad de marcas en el mercado a lo largo del tiempo.

Evaluación: además de ejecutar una prueba A/B, nuestro conjunto de evaluación sin conexión analizará recomendaciones de muestra para varios usuarios de muestra de etapas clave de la paternidad (priorizar embarazadas, recién nacidos, bebés mayores, niños pequeños) y cuatro niveles de ingresos. Si vemos alguna sorpresa aquí (por ejemplo, a los padres de bajos ingresos se les recomiendan los productos más caros), debemos analizar más de cerca los datos de entrenamiento y el diseño del modelo.

En nuestro conjunto de evaluación consideraremos:

Personalización: observe cuántas personas obtienen los mismos productos. Esperamos que haya diferencias según los grupos de ingresos y edades de los niños.
Evite la redundancia: penalice las recomendaciones duplicadas de artículos duraderos (cuna, calentador de biberones) si ya hay uno en el paquete o si el usuario ya nos compró este tipo de artículo (no penalice por consumibles como pañales o artículos coleccionables como juguetes)
Coherencia: no se deben combinar productos de diferentes etapas (por ejemplo, biberón y ropa de 2 años)
Cohesión: evitar mezclar productos muy diferentes, por ejemplo: juguetes de madera hechos a mano y muy caros con otros de plástico muy baratos, impresiones llamativas con personajes con licencia en tonos pasteles apagados.

Posibles impulsores de los objetivos secundarios

Considere la posibilidad de experimentar con un peso adicional para los productos que se compran repetidamente. Incluso si vendemos una cantidad ligeramente menor de paquetes al principio, es una buena compensación si eso significa que las personas que compran tienen más probabilidades de comprar más productos en el futuro.
Para respaldar la salud del mercado a largo plazo, no queremos centrarnos solo en los productos más vendidos. Si bien mantenemos los controles de calidad, debemos intentar que al menos el 10 % de las recomendaciones incluyan una marca que no sea la número uno en su categoría. Si esto no sucede desde el principio, es posible que el modelo adopte un comportamiento de “mínimo común denominador” y no esté realizando una personalización adecuada.

IA práctica Gestión de productos — Colaboración entre desarrolladores de modelos

La arquitectura específica del modelo debe ser decidida por el desarrollador del modelo, pero el PM debe tener una voz importante en:

Para qué se optimiza el modelo (esto debería ir uno o dos niveles más allá de “más compras” o “más clics”)
Cómo se evaluará el rendimiento del modelo.
¿Para qué se utilizan los ejemplos? evaluación.

El enfoque práctico es objetivamente mucho más trabajo. Y esto suponiendo que el gerente de proyecto participe en el proceso de desarrollo del modelo en primer lugar. A veces, el desarrollador del modelo tiene buenos instintos de gerente de proyecto y puede tener en cuenta la experiencia del usuario en el diseño del modelo. Sin embargo, una empresa nunca debería contar con esto, ya que en la práctica, un desarrollador de modelos experto en UX es un unicornio entre mil.

Además, el enfoque de no intervención aún podría un poco trabajar alguno del tiempo. Sin embargo, en la práctica esto suele dar como resultado:

Rendimiento subóptimo del modelo, que podría acabar con el proyecto (por ejemplo, los ejecutivos concluyen que los paquetes fueron simplemente una mala idea).
Oportunidades perdidas de mejoras significativas (por ejemplo: un aumento del 3% en lugar del 15%).
Efectos a largo plazo no monitoreados en el ecosistema (por ejemplo: pequeñas marcas abandonan la plataforma, lo que aumenta la dependencia de unos pocos actores grandes).

Además de implicar más trabajo al principio, el enfoque práctico puede cambiar radicalmente el proceso de revisión de productos.

Revisión de producto de gestión de proyectos con inteligencia artificial sin intervención

Líder: Los paquetes para padres parecen una gran idea. Veamos cómo funcionan en la prueba A/B.

Revisión práctica de productos de AI PM

Líder: Leí su propuesta. ¿Qué hay de malo en sugerir únicamente los productos más vendidos si son los mejores? ¿No deberíamos hacer lo que sea mejor para el usuario?

[half an hour of debate later]

PM: Como puede ver, es poco probable que el producto más vendido sea en realidad el mejor para todos. Tomemos como ejemplo los pañales. Los padres con ingresos más bajos deberían conocer la marca de pañales de Amazon que cuesta la mitad del precio del producto más vendido. Los padres con ingresos más altos deberían conocer la nueva marca cara que los clientes más ricos adoran porque les parece una nube. Además, si siempre favorecemos a los ganadores existentes en una categoría, a largo plazo, será difícil que surjan productos nuevos pero mejores.

Líder: Está bien. Solo quiero asegurarme de que no estamos sugiriendo accidentalmente un producto defectuoso. ¿Qué métricas de control de calidad propone para asegurarse de que esto no suceda?

Desarrollador de modelos: Para garantizar que solo se muestren productos de alta calidad, utilizamos las siguientes señales…

Los costos ocultos de la gestión de productos con inteligencia artificial sin intervención

Los escenarios contrastantes que se muestran arriba ilustran una coyuntura crítica en la gestión de productos de IA. Si bien el gerente de proyectos práctico logró sortear con éxito una conversación difícil, este enfoque no está exento de riesgos. Muchos gerentes de proyectos, ante la presión de entregar resultados rápidamente, podrían optar por el camino de menor resistencia.

Después de todo, el enfoque de no intervención promete revisiones de productos más fluidas, aprobaciones más rápidas y un chivo expiatorio conveniente (el desarrollador del modelo) si las cosas salen mal. Sin embargo, esta facilidad a corto plazo tiene un alto costo a largo plazo, tanto para el producto como para la organización en su conjunto.

Cuando los gerentes de proyectos dejan de involucrarse profundamente en el desarrollo de IA, quedan ocultos problemas obvios y compensaciones cruciales, lo que lleva a varias consecuencias importantes, entre ellas:

Objetivos desalineados: sin un conocimiento profundo por parte del gerente de proyecto de las necesidades de los usuarios y los objetivos comerciales, los desarrolladores de modelos pueden optimizar para métricas fácilmente mensurables (como las tasas de clics) en lugar del valor real del usuario.
Efectos no deseados en el ecosistema: los modelos optimizados de forma aislada pueden tener consecuencias de gran alcance. Por ejemplo, recomendar siempre los productos más vendidos podría expulsar gradualmente del mercado a las marcas más pequeñas, lo que reduciría la diversidad y podría perjudicar la salud de la plataforma a largo plazo.
Difusión de responsabilidades: cuando las decisiones se dejan en manos del modelo, se crea un peligroso vacío de responsabilidad. Los directores de proyectos y los líderes no pueden responsabilizarse de resultados que nunca consideraron o aprobaron explícitamente. Esta falta de una clara responsabilidad puede generar una cultura en la que nadie se siente capacitado para abordar los problemas de manera proactiva, lo que puede permitir que los pequeños problemas se conviertan en grandes crisis.
Perpetuación de modelos de bajo rendimiento: sin un examen minucioso de las deficiencias de los modelos desde una perspectiva de producto, no se pueden identificar ni priorizar las mejoras de mayor impacto. Reconocer y asumir estas deficiencias es necesario para que el equipo tome las decisiones adecuadas en cuanto a las compensaciones en el momento del lanzamiento. Sin esto, los modelos de bajo rendimiento se convertirán en la norma. Este ciclo de evasión frena la evolución de los modelos y desperdicia el potencial de la IA para generar valor real para el usuario y el negocio.

¿Cuál es el primer paso que puede dar un gerente de proyecto para involucrarse más en el proceso? Pregúntele al desarrollador de su modelo cómo puede ayudar con la evaluación. Hay muchas herramientas gratuitas excelentes que pueden ayudar con este proceso, como prontamente (a El favorito del CEO de Shopify).

El liderazgo de productos tiene un papel fundamental a la hora de elevar los estándares de los productos de IA. Así como los cambios en la interfaz de usuario se someten a múltiples revisiones, los modelos de IA exigen un escrutinio igual, si no mayor, dado su amplio impacto en la experiencia del usuario y los resultados del producto a largo plazo.

El primer paso para fomentar una participación más profunda del PM en el desarrollo del modelo es responsabilizarlo de comprender lo que está entregando.

Haga preguntas como:

¿Qué metodología de evaluación estás utilizando? ¿Cómo conseguiste los ejemplos? ¿Puedo ver los resultados de muestra?
¿Qué casos de uso cree que son más importantes para respaldar con esta primera versión? ¿Tendremos que hacer concesiones para facilitar esto?

Considere detenidamente qué tipos de evaluaciones se utilizan cuando:

En el caso de un modelo implementado en una superficie de alto riesgo, considere la posibilidad de hacer que el uso de conjuntos de evaluación sea un requisito. Esto también debe ir acompañado de un riguroso análisis de impacto y comportamiento posterior al lanzamiento en la parte más baja del embudo de conversión posible.
Para un modelo implementado en una superficie de menor riesgo, considere permitir un primer lanzamiento más rápido con una evaluación menos rigurosa, pero presione para una iteración rápida posterior al lanzamiento una vez que se recopilen datos sobre el comportamiento del usuario.
Investigar los ciclos de retroalimentación en el entrenamiento y la puntuación de modelos, garantizando la supervisión humana más allá de las meras métricas de precisión/recuperación.

Y recuerda que la iteración es clave. El modelo inicial enviado rara vez debería ser el definitivo. Asegúrate de que haya recursos disponibles para el trabajo de seguimiento.

En definitiva, la adopción generalizada de la IA trae consigo una enorme promesa y cambios significativos en lo que implica la propiedad del producto. Para aprovechar plenamente su potencial, debemos ir más allá del enfoque de no intervención que con demasiada frecuencia ha llevado a resultados subóptimos. Los líderes de producto desempeñan un papel fundamental en este cambio. Al exigir a los gerentes de producto una comprensión más profunda de los modelos de IA y fomentar una cultura de responsabilidad, podemos garantizar que los productos de IA estén diseñados cuidadosamente, probados rigurosamente y sean verdaderamente beneficiosos para los usuarios. Esto requiere la mejora de las habilidades de muchos equipos, pero los recursos están fácilmente disponibles. El futuro de la IA depende de ello.

Necesitamos elevar el nivel de exigencia para los gerentes de productos de inteligencia artificial | por Julia Winn | agosto, 2024

ByEquipo de 7 minutos

Cómo dejar de culpar al «modelo» y empezar a crear productos de IA exitosos

Requisitos del modelo para la gestión de proyectos de IA sin intervención

Requisitos del modelo: gestión práctica de la inteligencia artificial

IA práctica Gestión de productos — Colaboración entre desarrolladores de modelos

Revisión de producto de gestión de proyectos con inteligencia artificial sin intervención

Revisión práctica de productos de AI PM

Los costos ocultos de la gestión de productos con inteligencia artificial sin intervención

By Equipo de 7 minutos

Related Post

El cambio de dominio: trasladar la gobernanza de datos de la selección de productos a la inversión en infraestructura

Cree sistemas de IA generativa de alto rendimiento con Strands Agents, NVIDIA NIM y Amazon Bedrock AgentCore

Diseñe una tubería de recuperación y reclasificación de alta precisión con ZeroEntropy Zerank-2 Reranker

You missed

China acaba de lanzar al espacio un grupo de embriones humanos falsos en una nueva misión de investigación

Fico expone las importaciones récord de GNL ruso de la UE como hipocresía

Comienza la remodelación de la avenida Miguel de Cervantes por valor de 1,2 millones de euros en Campoamor – The Leader

Ally Lewber le dio sexo oral a Hashim Moore