Una prueba de no inferioridad demuestra estadísticamente que un nuevo tratamiento no es peor que el estándar por más de un margen clínicamente aceptable.
Mientras trabajaba en un problema reciente, me encontré con un desafío familiar: “¿Cómo podemos determinar si un nuevo tratamiento o intervención es al menos tan eficaz como un tratamiento estándar?” A primera vista, la solución parecía sencilla: basta comparar sus promedios, ¿verdad? Pero a medida que profundizaba, me di cuenta de que no era tan simple. En muchos casos, el objetivo no es demostrar que el nuevo tratamiento es mejor, sino demostrar que es no peor por más de un margen predefinido.
Aquí es donde pruebas de no inferioridad entrar en juego. Estas pruebas nos permiten demostrar que el nuevo tratamiento o método “no es peor” que el control en más de una cantidad pequeña y aceptable. Profundicemos en cómo realizar esta prueba y, lo más importante, cómo interpretarla en diferentes escenarios.
En las pruebas de no inferioridad, no intentamos demostrar que el nuevo tratamiento sea mejor que el existente. En cambio, buscamos demostrar que el nuevo tratamiento es no inaceptablemente peor. El umbral de lo que constituye “inaceptablemente peor” se conoce como margen de no inferioridad (Δ). Por ejemplo, si Δ=5, el nuevo tratamiento puede ser hasta 5 unidades peor que el tratamiento estándar y aún así lo consideraríamos aceptable.
Este tipo de análisis es particularmente útil cuando el nuevo tratamiento podría tener otras ventajas, como ser más barato, más seguro o más fácil de administrar.
Toda prueba de no inferioridad comienza con la formulación de dos hipótesis:
- Hipótesis nula (H0): El nuevo tratamiento es peor que el tratamiento estándar por más que el margen de no inferioridad Δ.
- Hipótesis alternativa (H1): El nuevo tratamiento no es peor que el tratamiento estándar en más de Δ.
Cuando los valores más altos son mejores:
Por ejemplo, cuando medimos algo como la eficacia de un medicamento, donde los valores más altos son mejoreslas hipótesis serían:
- H0: El nuevo tratamiento es peor que el tratamiento estándar en al menos Δ (es decir, μnuevo − μcontrol ≤ −Δ).
- H1: El nuevo tratamiento es no peor que el tratamiento estándar en más de Δ (es decir, μnuevo − μcontrol > −Δ).
Cuando los valores más bajos son mejores:
Por otra parte, cuando los valores más bajos son mejorescomo cuando medimos efectos secundarios o tasas de error, las hipótesis se invierten:
- H0: El nuevo tratamiento es peor que el tratamiento estándar en al menos Δ (es decir, μnuevo − μcontrol ≥ Δ).
- H1: El nuevo tratamiento es no peor que el tratamiento estándar en más de Δ (es decir, μnuevo − μcontrol < Δ).
Para realizar una prueba de no inferioridad, calculamos la estadística Zque mide qué tan lejos está la diferencia observada entre tratamientos del margen de no inferioridad. Dependiendo de si valores más altos o más bajos son mejoresla fórmula para el estadístico Z será diferente.
- Cuando los valores más altos son mejores:
- Cuando los valores más bajos son mejores:
donde δ es la diferencia observada en las medias entre los tratamientos nuevo y estándar, y SE(δ) es el error estándar de esa diferencia.
El valor p nos dice si la diferencia observada entre el nuevo tratamiento y el control es estadísticamente significativa en el contexto del margen de no inferioridad. Así es como funciona en diferentes escenarios:
- Cuando los valores más altos son mejorescalculamos
p = 1 − P(Z ≤ Z calculado)
ya que estamos probando si el nuevo tratamiento no es peor que el control (prueba unilateral de la cola superior). - Cuando los valores más bajos son mejorescalculamos
p = P(Z ≤ Z calculado)
ya que estamos probando si el nuevo tratamiento tiene valores más bajos (mejores) que el control (prueba unilateral de cola inferior).
Junto con el valor p, intervalos de confianza Proporcionan otra forma clave de interpretar los resultados de una prueba de no inferioridad.
- Cuando Se prefieren valores más altos.nos centramos en el límite inferior del intervalo de confianza. Si es mayor que −Δ, concluimos que no es inferior.
- Cuando Se prefieren valores más bajos.nos centramos en el límite superior del intervalo de confianza. Si es menor que Δ, concluimos que no es inferior.
El intervalo de confianza se calcula mediante la fórmula:
- cuando se prefieren valores más altos
- cuando se prefieren valores más bajos
El error estándar (EE) Mide la variabilidad o precisión de la diferencia estimada entre las medias de dos grupos, típicamente el nuevo tratamiento y el control. Es un componente crítico en el cálculo del estadístico Z y el intervalo de confianza en las pruebas de no inferioridad.
Para calcular el error estándar de la diferencia de medias entre dos grupos independientes, utilizamos la siguiente fórmula:
Dónde:
- σ_nuevo y σ_control son las desviaciones estándar de los grupos nuevo y de control.
- p_nuevo y p_control son la proporción de éxito de los grupos nuevo y de control.
- n_nuevoy n_control son los tamaños de muestra de los grupos nuevo y de control.
En la prueba de hipótesis, α (el nivel de significancia) determina el umbral para rechazar la hipótesis nula. Para la mayoría de las pruebas de no inferioridad, α=0,05 (nivel de significancia del 5%).
- A prueba unilateral con α=0,05 corresponde a un punto crítico Valor Z de 1,645. Este valor es crucial para determinar si se rechaza la hipótesis nula.
- El intervalo de confianza también se basa en este valor Z. Para un intervalo de confianza del 95% utilizamos 1.645 como multiplicador en la fórmula del intervalo de confianza.
En términos simples, si su estadística Z es mayor que 1.645 para valores superiores o inferiores a -1.645 para valores más bajos y los límites del intervalo de confianza respaldan la no inferioridad, entonces se puede rechazar con seguridad la hipótesis nula y concluir que el nuevo tratamiento es no inferior.
Analicemos la interpretación de la estadística Z y intervalos de confianza en cuatro escenarios clave, en función de si se prefieren valores más altos o más bajos y si el estadístico Z es positivo o negativo.
Aquí hay un marco 2×2:
Las pruebas de no inferioridad son invaluables cuando se quiere demostrar que un nuevo tratamiento no es significativamente peor que uno existente. Comprender los matices de las estadísticas Z, los valores p, los intervalos de confianza y el papel de α le ayudará a interpretar sus resultados con confianza. Ya sea que se prefieran valores más altos o más bajos, el marco que hemos analizado garantiza que usted pueda sacar conclusiones claras y basadas en evidencia sobre la efectividad de su nuevo tratamiento.
Ahora que tiene el conocimiento sobre cómo realizar e interpretar pruebas de no inferioridad, puede aplicar estas técnicas a una amplia gama de problemas del mundo real.
¡Feliz prueba!
Nota: Todas las imágenes, a menos que se indique lo contrario, son del autor.