El artículo fue coescrito con Pan Liu, investigador postdoctoral de UCLA y Fred Hutchinson Cancer Center. Pan es el primer autor del artículo de mcRigor Nature Communications.
Las tecnologías de secuenciación unicelular han avanzado rápidamente en los últimos años, brindando oportunidades sin precedentes para descubrir la diversidad celular, los cambios dinámicos en los estados celulares y los mecanismos reguladores de genes subyacentes. Además de la secuenciación de ARN unicelular ampliamente utilizada (scRNA-seq) 1,2, nuevas modalidades como la secuenciación de accesibilidad a la cromatina unicelular (scATAC-seq) 3,4 y el perfil conjunto del transcriptoma y la accesibilidad a la cromatina (scMultiome) 5 han permitido la disección de la heterogeneidad celular con resolución unicelular a través de múltiples capas ómicas. Sin embargo, los datos generados por estas tecnologías suelen ser muy escasos, principalmente debido a la profundidad de secuenciación limitada por célula, así como a la transcripción inversa imperfecta y la amplificación no lineal, que hacen que los genes altamente expresados dominen la capacidad de secuenciación y hacen que los genes de baja expresión sean difíciles de detectar 6.
Para aliviar la escasez de datos y el ruido, los investigadores propusieron el concepto de “metacélula”, en el que células con perfiles de expresión similares se agregan en una única unidad representativa (una metacélula) cuya expresión se define por la expresión media de sus células constituyentes, mejorando así la señal y reduciendo el ruido. Sin embargo, los métodos de construcción de metacélulas existentes a menudo producen particiones de metacélulas sustancialmente diferentes y son altamente sensibles a la configuración de hiperparámetros, particularmente el tamaño promedio de metacélulas 7. Tal falta de consistencia hace que sea difícil para los usuarios determinar qué partición de metacélulas es más confiable y en qué medida los perfiles de metacélulas resultantes preservan verdaderas señales biológicas. En consecuencia, la solidez de los análisis posteriores se ve comprometida y el potencial de las metacélulas como marco general de preprocesamiento de datos en diversas tareas y modalidades ómicas sigue siendo limitado.
Nuestro artículo 8 de Nature Communications proporciona una definición estadística rigurosa de una metacélula basada en un modelo de dos capas de datos de secuenciación unicelular: la capa superior captura la variación biológica en la expresión verdadera, mientras que la capa inferior modela el proceso de secuenciación que genera la expresión medida a partir de la expresión verdadera. Sobre la base de esta definición, desarrollamos mcRigor, un marco estadístico para detectar metaceldas dudosas dentro de una partición determinada y seleccionar el método de partición de metaceldas y el hiperparámetro óptimos entre las configuraciones candidatas de método-hiperparámetro.
mcRigor no solo detecta y elimina metacélulas dudosas (su versión extendida, mcRigor de dos pasos, desensambla aún más las metacélulas dudosas en células individuales y las vuelve a ensamblar en otras más pequeñas y confiables), mejorando así la confiabilidad de los análisis posteriores, como la coexpresión de genes y la regulación de genes potenciadores, sino que también permite la selección basada en datos de la partición de metacélulas más adecuada. estrategia para cada conjunto de datos. Debido a su compatibilidad flexible, mcRigor se puede aplicar fácilmente a datos transcriptómicos, de accesibilidad a la cromatina y multiómicos unicelulares (Fig. 2). Además, mcRigor proporciona un criterio de evaluación unificado para comparar diferentes métodos de construcción de metacélulas, ofreciendo una guía confiable para los investigadores en la selección de métodos.
En la primera parte de nuestro artículo 8, presentamos la metodología de mcRigor para detectar metacélulas dudosas. Específicamente, mcRigor cuantifica la heterogeneidad interna de cada metacelda utilizando una estadística basada en correlación de características, mcDiv, que mide la desviación de las correlaciones característica-característica de la independencia. La razón es que si todas las células miembro comparten los mismos niveles de expresión verdaderos y la variación observada entre ellas surge puramente del proceso de medición, las características deberían ser aproximadamente independientes. Luego, mcRigor construye una distribución nula para mcDiv utilizando un novedoso procedimiento de doble permutación e identifica las metacélulas que se desvían significativamente de este nulo como dudosas (Fig. 2a).
Tanto en conjuntos de datos de PBMC reales como semisimulados, mcRigor distingue con precisión las metacélulas confiables de las dudosas (Fig. 2b-c). Además, demostramos la eficacia de mcRigor para mejorar la confiabilidad de múltiples análisis posteriores. En los análisis de datos de líneas celulares, la eliminación de metacélulas dudosas aumenta notablemente la relación señal-ruido de los genes marcadores del ciclo celular (Fig. 2d). En los análisis de datos de COVID-19 versus controles sanos, mcRigor elimina las correlaciones genéticas falsas causadas por metacélulas dudosas y revela una coexpresión más fuerte dentro de los módulos de respuesta inmune adaptativa (Fig. 2e). En los análisis de datos de scMultiome, mcRigor mejora la detectabilidad de las asociaciones de genes potenciadores, filtrando los falsos positivos débilmente respaldados y preservando al mismo tiempo las señales consistentes con las observadas a nivel unicelular (Fig. 2f).
En la segunda parte de nuestro artículo 8, presentamos la metodología de mcRigor para evaluar particiones de metaceldas y optimizar hiperparámetros. Al equilibrar la confiabilidad de las metaceldas con la escasez de datos, mcRigor asigna una puntuación de evaluación general a cada partición candidata y selecciona automáticamente la configuración óptima de método-parámetro entre todos los candidatos, transformando así el proceso empírico de ajuste de métodos y parámetros en una toma de decisiones automatizada basada en datos (Fig. 3a).
Ilustramos la utilidad de esta funcionalidad de optimización en diversas tareas posteriores. Por ejemplo, la proporción cero de metacélulas optimizadas para mcRigor coincide estrechamente con la proporción cero estándar medida por smRNA-FISH, lo que demuestra su capacidad para distinguir ceros técnicos de ceros biológicos (Fig. 3b). En el análisis de expresión diferencial, los resultados basados en metacélulas optimizadas para mcRigor se alinean más estrechamente con los obtenidos a partir de datos masivos de RNA-seq, lo que indica una confiabilidad mejorada (Fig. 3c). En los datos del curso del tiempo, las metacélulas optimizadas para mcRigor mejoran la resolución de la trayectoria y revelan una dinámica de expresión genética más clara consistente con la evidencia experimental (Fig. 3d).
El paquete mcRigor R y los tutoriales en línea están disponibles en https://jsb-ucla.github.io/mcRigor/
Documento completo disponible en https://www.nature.com/articles/s41467-025-63626-5
Referencias:
1. Picelli, S. et al. Sec. de ARN de longitud completa a partir de células individuales utilizando Smart-seq2. Nat. Protocolo. 9, 171–181 (2014).
2. Macosko, EZ et al. Perfiles de expresión de todo el genoma altamente paralelos de células individuales utilizando gotitas de nanolitros. Celda 161, 1202-1214 (2015).
3. Buenrostro, JD et al. La accesibilidad a la cromatina unicelular revela principios de variación regulatoria. Naturaleza 523, 486–490 (2015).
4. Cusanovich, DA et al. Perfiles múltiples unicelulares de accesibilidad a la cromatina mediante indexación celular combinatoria. Ciencia 348, 910–914 (2015).
5. Cao, J. et al. Perfil conjunto de accesibilidad a la cromatina y expresión genética en miles de células individuales. Ciencia 361, 1380-1385 (2018).
6. Jiang, R., Sun, T., Song, D. & Li, JJ Estadística o biología: la controversia de la inflación cero sobre los datos de scRNA-seq. Genoma Biol. 23, 31 (2022).
7. Bilous, M., Hérault, L., Gabriel, AA, Teleman, M. & Gfeller, D. Construcción y análisis de metacélulas en datos genómicos unicelulares. Mol. Sistema. Biol. 20, 744–766 (2024).
8. Liu, P. & Li, JJ mcRigor: un método estadístico para mejorar el rigor de la partición de metacélulas en el análisis de datos unicelulares. bioRxiv (2024) doi:10.1101/2024.10.30.621093.
9. Kirschenbaum, D. et al. La transcriptómica unicelular resuelta en el tiempo define las trayectorias inmunes en el glioblastoma. Celda 187, 149–165.e23 (2024).