Experimentos ilustrados: Cómo la tarea aleatoria ahorró US $ 1M en gasto de marketing

Ejecutar Experiments Cool es fácilmente una de mis partes favoritas de trabajar en la ciencia de datos.

La mayoría de los experimentos no ofrecen grandes victorias, por lo que los ganadores hacen historias divertidas. Hemos tenido algunos de estos en Mayor cuidadoy estoy compartiendo cada historia de una manera que resalte un concepto relacionado con la experimentación.

Y en esta publicación, compartiremos una historia sobre cómo evitamos hacer algo estúpido al ejecutar un experimento primero y usarlo para discutir el Problema de comparaciones múltiples.

Antecedentes: el cuidado intensivo contrata a enfermeras a escala … y es Covid 😷

El cuidado intelectual conecta a las enfermeras con oportunidades de trabajo que van desde el trabajo a tiempo completo hasta los turnos individuales. Cuando se trata de cambios individuales, los médicos trabajan para obtener el cuidado de los empleados (modelo de agencia). Esto significa que estamos contratando enfermeras las 24 horas, los 7 días de la semana.

Es posible que haya suprimido esta memoria, pero en 2020 y 2021 tuvimos esta pandemia global. Contratar a las enfermeras durante la pandemia fue nada menos que una pelea de rocas. Teníamos permiso comercial completo para probar todo y cualquier cosa que pudiera ayudarnos a contratar enfermeras de manera más rápida y eficiente.

El problema: muchas aplicaciones, pero no tantas contrataciones nuevas

Trabajar en cualquier lugar de la atención médica significa enviar una gran pila de papeleo: licencias, inmunizaciones, certificaciones y más además de los currículums, referencias y verificaciones de antecedentes regulares.

El cuidado intelectual no es diferente. Y a pesar de que lo hacemos todo para teléfono y digital, enviar todo este documento es tan divertido como presentar sus impuestos. Y eso significa que muchas personas que aplican se rinden en algún lugar entre crear una cuenta y completar un turno.

La solución: ¡solo arroja dinero! 💸

Probamos muchas cosas (incluidos diferentes incentivos de referencia). Una propuesta fácil de intentar era pagar a los médicos por $ 100 adicionales cuando completan su primer turno.

¿Por qué $ 100? Porque es un buen número redondo y se ve bien en Marketing materiales. Es posible que se sorprenda de cuántas decisiones comerciales se toman de esta manera (a menos que esté en marketing, en cuyo caso es perfectamente normal).

La idea era tan fácil que casi nos pusimos en marcha sin una prueba. Había mucha presión para moverse rápidamente y queríamos ser rápidos. Pero la ciencia prevaleció y, en lugar de ofrecer $ 100 a todos, ofrecimos bonos al azar que van desde $ 0 a $ 100 en incrementos de $ 25.

Los médicos fueron informados de la bonificación por correo electrónico durante todo el proceso de solicitud. (A menos que haya tenido un bono de $ 0, no hay correo electrónico para usted).

Realizamos esta prueba durante varios meses para dar a los candidatos tiempo suficiente para completar sus solicitudes. Cuando volvimos a tomar una decisión, tuvimos varios miles de solicitantes en cada nivel de bonificación.

Indiroros? Siempre es una posibilidad, pero parece poco probable. La demanda de talento de enfermería era increíblemente alta en ese momento. Me cuesta imaginar a los médicos con altas bonificaciones que roban todos los cambios de aquellos con bonos (exagerando así el impacto de la alta bonificación). Hubo muchos cambios para todos.

Aparte técnico: comparaciones múltiples

Si alguna vez realiza una prueba como esta, es probable que sea más alto que le pida que “corte y diga” o “corte” o tal vez “cave” los datos de 100 formas diferentes. Esto es divertido pero también peligroso. Espera, ¿peligroso?! Discutamos.

  • Los conjuntos de datos son finitos y ruidosos, lo que significa que cada vez que prueba una hipótesis utilizando su conjunto de datos, existe la posibilidad de que sus respuestas sean incorrectas. Lo siento, no hice las reglas.
  • Para comprender el riesgo de una respuesta incorrecta, observamos el diferencia de un conjunto de datos. Conocer la varianza nos ayuda a saber si una estadística está “cerca” o “lejos” de otra posible respuesta. (Por ejemplo, “¿Una campaña de marketing tiene un impacto distinto de cero en las ventas?”)
  • Supongamos que, dada la cantidad de ruido en mis datos, hay un 5% de posibilidades de sacar una conclusión falsa para una hipótesis dada. Tengo curiosidad por saber si una campaña de marketing aumentó las ventas, y mi jefe quiere saber cómo el impacto difiere para hombres, mujeres, personas mayores, jóvenes, personas en Idaho, personas en Florida, … etc. ¿Ves el peligro ahora? Si hago 20 preguntas, una buena oportunidad al menos una de las respuestas es incorrecta. Y si eso significa que su empresa comienza a comercializar como loca para los adolescentes en Idaho, ¡eso podría ser un error costoso!
  • Mientras que su corte y corte no es un modelo de aprendizaje automático, puede enredo Su análisis haciendo demasiadas preguntas. Al igual que los ingenieros de aprendizaje automático tienen formas de evitar modelos de sobreajuste, los analistas necesitan formas de evitar sacar conclusiones de un conjunto de datos finitos.

Llame antes de cavar: 1-bon-fer-Roni

Entonces, ¿qué debe hacer un analista? Hay muchas heurísticas, todas las cuales dificultan rechazar una hipótesis nula.

  • Ajustar los valores p requeridos para la “significación estadística” (Corrección de Bonferroni).
  • Use una clasificación de valores p para determinar cuándo dejar de considerar un resultado como significativo (Benjamini-Hochberg).
  • En lugar de tomar los resultados del experimento al valor nominal, úselos para actualizar algunos bayesianos antes de representar su mejor vista actual del mundo (Promedio del modelo bayesiano). Puede usar esto para combinar los resultados de varias pruebas, cuando sea apropiado.
  • Bootstrapping – Muestra de los datos experimentales con reemplazo, calcule la estadística de su prueba, repita los millones de veces y luego considere una distribución completa de las estadísticas de prueba. Bootstrapping no resuelve inmediatamente su problema de comparaciones múltiples, pero conocer la varianza de sus estadísticas de prueba puede ayudarlo a ser un consumidor más crítico de valores P.
  • Reglas de detención dinámica. Enumere sus hipótesis. A medida que entran los resultados, deje de probar cada hipótesis tan pronto como la evidencia sea clara Pero continúe probando otras hipótesis con datos adicionales. Finalmente, te quedas sin datos o te quedas sin hipótesis. ¿Por qué no revisamos nuestras hipótesis anteriores con los datos adicionales? Porque estaríamos de vuelta en múltiples comparaciones infierno. La naturaleza secuencial del ejercicio vincula nuestras manos con el mástil para que no vayamos a nadar después de las sirenas.

Si está interesado en un resumen más detallado, recomendaría lo siguiente:

Volver a las bonificaciones

Somos un grupo curioso y, por lo tanto, consideramos ver varios recortes de nuestros datos de experimentos: ubicación, edad, calificación y más. ¿No sería sorprendente si las bonificaciones fueran ineficaces para las enfermeras … a excepción de las enfermeras menores de 30 años que viven en Rhode Island con cuentas activas de Netflix? Muchos equipos de marketing están listos para saltar exactamente a este tipo de “patrones” y le voy a pedir que me muestre sus recibos de Bonferroni.

Después de tener en cuenta múltiples comparaciones, encontramos uno Dimensión que era realmente significativa, ya sea que el solicitante fuera una enfermera o un asistente de enfermería (CNA).

Tenga en cuenta cómo las bonificaciones difieren del grupo “sin bonificación”. (Imagen por autor)

Sin un bono, las enfermeras y los asistentes de enfermería completaron un cambio a la misma tarifa. Los asistentes de enfermería tenían más probabilidades de comenzar a trabajar con una bonificación de cualquier cantidad. Las enfermeras, por otro lado, fueron menos probable ¡Para empezar a trabajar! (Y sí, todos estos son Stat Sig diferentes de no hay bonificación, para todos los escépticos).

Para los lectores de la atención médica externa, es importante saber que las enfermeras pueden ganar fácilmente entre 2 veces y 4 veces la tarifa por hora de un asistente de enfermería. Estas poblaciones difieren de muchas maneras, por lo que ponemos esta dimensión en la parte superior de nuestra lista de pruebas secuenciales.

Años más tarde, todavía me rasco la cabeza en este gráfico y me pregunto por qué las tasas de finalización disminuido Entre las enfermeras cuando ofrecimos más dinero. ¿Quizás ningún regalo es mejor que un regalo barato? Los hospitales en ese momento ofrecían bonos de firma de hasta $ 25,000 para el trabajo a tiempo completo.

¿Cuál es la cantidad de bonificación óptima?

Después de ejecutar esta prueba, eliminamos las bonificaciones para las enfermeras. ¿Quizás algún bono mayor de $ 100 habría mejorado nuestras métricas del embudo? Esa es otra prueba para otro día.

Para los CNA, tenga en cuenta la gran diferencia entre el grupo sin bonificación y el grupo de bonificación de $ 25 (casi 5 puntos porcentuales completos). A partir de ahí, cada $ 25 adicional tiene un efecto mucho menor, y en algún lugar entre $ 50 y $ 100, el beneficio marginal de bonos más grandes alcanza cero. Terminamos yendo con $ 25 para darnos espacio para aumentar las cosas en momentos y lugares específicos según sea necesario.

Recuerde que la propuesta inicial era dar $ 100 a todos. Si hubiéramos hecho eso, habríamos gastado $ 1M extra en bonos en un año y probablemente habría reclutado el mismo número de personas.

Contradas clave para aquellos que llegaron tan lejos

  • No necesitas maquinaria elegante para ejecutar una prueba impactante. Para esta prueba, todo lo que necesitábamos era (1) asignación aleatoria y (2) una forma de enviar 4 variaciones de un correo electrónico. Tenemos la suerte de tener un buen almacén de datos y un CRM, pero honestamente podríamos haber ejecutado esto de hojas de cálculo.
  • Tenemos una fuerte preferencia por los números agradables y redondos en nuestras promociones. Pero encontramos que un bono de $ 25 fue básicamente tan efectivo como un bono de $ 100. Hemos realizado otras pruebas que muestran que las bonificaciones son más sobre el tiempo y la presentación frente al gran dólar.
  • Es tentador cortar un conjunto de datos 900 formas diferentes y luego perseguir los mejores recortes con promociones u otras intervenciones. Esto es genial, pero tenga cuidado con el problema de comparaciones múltiples.