Mejorar el análisis del recuento de objetos (o celdas) con muchos ceros | de Daniel Manrique-Castaño

Un modelo inflado en cero captura efectivamente los matices de los conjuntos de datos caracterizados por una preponderancia de ceros. Opera distinguiendo entre dos procesos distintos: 1) Determinar si el resultado es cero y 2) predecir los valores para resultados distintos de cero. Este enfoque dual es particularmente adecuado para hacer preguntas como: “¿Hay células presentes y, de ser así, cuántas?”

Para manejar conjuntos de datos con abundancia de ceros, empleamos modelos como hurdle_poisson() y Zero_inflated_poissonambos diseñados para escenarios donde los modelos de recuento estándar como el de Poisson o los modelos binomiales negativos resultan inadecuados (3).En términos generales, una diferencia clave entre hurdle_poisson() y Zero_inflated_poisson es que este último incorpora un componente de probabilidad adicional específicamente para los ceros, mejorando su capacidad para manejar conjuntos de datos donde los ceros no sólo son comunes sino también significativos. Veremos el impacto que tienen estas características en nuestra estrategia de modelado usando brms.

Ajuste de un modelo de obstáculo_poisson

Comencemos usando el hurdle_poisson() distribución en nuestro esquema de modelado:

Hurdle_Fit1 <- brm(Cells ~ Hemisphere, 
data = Svz_data, 
family = hurdle_poisson(),
# seed for reproducibility purposes
seed = 8807,
control = list(adapt_delta = 0.99),
# this is to save the model in my laptop
file    = "Models/2024-04-19_CountsZeroInflated/Hurdle_Fit1.rds",
file_refit = "never")# Add loo for model comparison
Hurdle_Fit1 <- 
add_criterion(Hurdle_Fit1, c("loo", "waic", "bayes_R2"))

Veamos los resultados usando la función de resumen estándar.

summary(Hurdle_Fit1)

Dada esta distribución familiar, las estimaciones se muestran en la escala logarítmica (mu = log). En términos prácticos, esto significa que el número de células en la zona subventricular contralateral (SVZ) se puede expresar como exp(1,11) = 3,03. De manera similar, se estima que el hemisferio ipsilateral tiene exp(1,07) = 2,91 veces el número de células. Estos resultados se alinean bien con nuestras expectativas y ofrecen una interpretación coherente de la distribución celular entre los dos hemisferios.

Además, el hu El parámetro dentro de los “Parámetros específicos de la familia” arroja luz sobre la probabilidad de observar recuentos de células cero. Indica una probabilidad del 38% de que no ocurra nada. Esta probabilidad resalta la necesidad de un enfoque de modelo inflado cero y justifica su uso en nuestro análisis.

Para visualizar mejor las implicaciones de estos hallazgos, podemos aprovechar la conditional_effects función. Esta herramienta en el brms El paquete nos permite trazar los efectos estimados de diferentes predictores en la variable de respuesta, proporcionando una representación gráfica clara de cómo los predictores influyen en los recuentos de células esperados.

Hurdle_CE <- 
conditional_effects(Hurdle_Fit1)Hurdle_CE <- plot(Hurdle_CE, 
plot = FALSE)[[1]]
Hurdle_Com <- Hurdle_CE + 
Plot_theme +
theme(legend.position = "bottom", legend.direction = "horizontal")
Hurdle_CE_hu <- 
conditional_effects(Hurdle_Fit1, dpar = "hu")
Hurdle_CE_hu <- plot(Hurdle_CE_hu, 
plot = FALSE)[[1]]
Hurdle_hu <- Hurdle_CE_hu + 
Plot_theme +
theme(legend.position = "bottom", legend.direction = "horizontal")
Hurdle_Com | Hurdle_hu

Figura 5: Efectos condicionales del ajuste con vallas

Estos gráficos dibujan una imagen más lógica que nuestro primer modelo. El gráfico de la izquierda muestra las dos partes del modelo (“mu” y “hu”). Además, si este modelo es adecuado, deberíamos ver predicciones más alineadas al usar pp_check:

pp_check(Hurdle_Fit1, ndraws = 100) +
labs(title = "Hurdle regression") +
theme_classic()

Figura 6: Modelo de obstáculos para controles predictivos posteriores

Como era de esperar, las predicciones de nuestro modelo tienen un límite inferior en 0.

Modelando la dispersión de los datos.

Observando los datos presentados en el gráfico de la derecha de Figura 5 revela una discrepancia entre nuestros hallazgos empíricos y nuestra comprensión teórica del tema. Según el conocimiento establecido, esperamos una mayor probabilidad de recuentos de células distintas de cero en la zona subventricular (SVZ) del hemisferio ipsilateral, especialmente después de una lesión. Esto se debe a que la SVZ ipsilateral normalmente se convierte en un centro de actividad celular, con una proliferación celular significativa después de la lesión. Nuestros datos, que indican recuentos prevalentes distintos de cero en esta región, respaldan esta expectativa biológica.

Sin embargo, las predicciones del modelo actual no se alinean completamente con estos conocimientos. Esta divergencia subraya la importancia de incorporar la comprensión científica en nuestros modelos estadísticos. Depender únicamente de pruebas estándar sin adaptación contextual puede llevar a conclusiones engañosas.

Para abordar esto, podemos refinar nuestro modelo ajustando específicamente el hu parámetro, que representa la probabilidad de que ocurra cero. Esto nos permite reflejar con mayor precisión la actividad biológica esperada en la ZSV del hemisferio ipsilateral. Luego construimos un segundo modelo de obstáculos:

Hurdle_Mdl2 <- bf(Cells ~ Hemisphere, 
hu ~ Hemisphere)Hurdle_Fit2 <- brm(
formula = Hurdle_Mdl2,
data = Svz_data, 
family = hurdle_poisson(),
# seed for reproducibility purposes
seed = 8807,
control = list(adapt_delta = 0.99),
# this is to save the model in my laptop
file    = "Models/2024-04-19_CountsZeroInflated/Hurdle_Fit2.rds",
file_refit = "never")
# Add loo for model comparison
Hurdle_Fit2 <- 
add_criterion(Hurdle_Fit2, c("loo", "waic", "bayes_R2"))

Veamos primero si el gráfico de resultados se alinea con nuestra hipótesis:

Hurdle_CE <- 
conditional_effects(Hurdle_Fit2)Hurdle_CE <- plot(Hurdle_CE, 
plot = FALSE)[[1]]
Hurdle_Com <- Hurdle_CE + 
Plot_theme +
theme(legend.position = "bottom", legend.direction = "horizontal")
Hurdle_CE_hu <- 
conditional_effects(Hurdle_Fit2, dpar = "hu")
Hurdle_CE_hu <- plot(Hurdle_CE_hu, 
plot = FALSE)[[1]]
Hurdle_hu <- Hurdle_CE_hu + 
Plot_theme +
theme(legend.position = "bottom", legend.direction = "horizontal")
Hurdle_Com | Hurdle_hu

Figura 7: Efectos condicionales para el ajuste de obstáculos 2

Este enfoque de modelado revisado parece ser una mejora sustancial. Al tener en cuenta específicamente la mayor probabilidad de recuentos cero (~75%) en el hemisferio contralateral, el modelo ahora se alinea más estrechamente tanto con los datos observados como con nuestro conocimiento científico. Este ajuste no sólo refleja la menor actividad celular esperada en esta región, sino que también mejora la precisión de nuestras estimaciones. Con estos cambios, el modelo ofrece ahora una interpretación más matizada de la dinámica celular después de la lesión. Veamos el resumen y la TRANSFORMACIÓN PARA LA hu parámetros (no mire los demás) para visualizarlos en una escala de probabilidad usando el logit2prob función creamos al principio.

logit2prob(fixef(Hurdle_Fit2))

Aunque las estimaciones para el número de células son similares, la hu Los parámetros (en la escala logit) nos dicen que la probabilidad de ver ceros en el hemisferio contralateral es:

En cambio:

Representa una reducción drástica a aproximadamente el 0,23% de la probabilidad de observar cero recuentos de células en el hemisferio lesionado (ipsilateral). Este es un cambio notable en nuestras estimaciones.

Ahora, exploremos si un zero_inflated_poisson() La familia de distribución cambia estas ideas.

Mejorar el análisis del recuento de objetos (o celdas) con muchos ceros | de Daniel Manrique-Castaño | abril de 2024

ByEquipo de 7 minutos

Ajuste de un modelo de obstáculo_poisson

Modelando la dispersión de los datos.

By Equipo de 7 minutos

Related Post

Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8: Comparación de puntos de referencia de codificación agente, precios de API y compensaciones entre costo y rendimiento

Agentes de IA crean áreas de juego virtuales para ayudar a los robots a obtener datos de entrenamiento cruciales | Noticias del MIT

OpenAI GPT-5.6 Sol, Terra y Luna ahora están disponibles de forma generalizada en Amazon Bedrock

You missed

Reeves abre un salvavidas de £ 2 mil millones para pequeñas empresas

Los paseadores de perros advierten que eviten la ribera de Alicante « Euro Weekly News

Sanjay Dutt se une a NBK111 de Balakrishna; Comienza el rodaje de la película de Gopichand Malineni

España se enfrenta a Francia en un gran éxito del Mundial