Google AI lanza un modelo 27B a escala C2S que traduce datos complejos de expresión genética unicelular en ‘oraciones celulares’ que los LLM pueden comprender

Un equipo de investigadores de Google Research, Google DeepMind y Yale lanzó C2S-Scale 27B, un modelo básico de 27 mil millones de parámetros para análisis unicelular construido sobre Gemma-2. El modelo formaliza los perfiles de RNA-seq (scRNA-seq) unicelulares como “oraciones celulares” (listas ordenadas de símbolos genéticos) de modo que un modelo de lenguaje pueda analizar y razonar de forma nativa los estados celulares. Más allá de los avances en la evaluación comparativa, el equipo de investigación informa sobre una vía validada experimentalmente y dependiente del contexto: la inhibición de CK2 (silmitasertib/CX-4945) combinada con dosis bajas de interferón amplifica la presentación de antígenos, un mecanismo que podría hacer que los tumores “fríos” respondan mejor a la inmunoterapia. El resultado es un aumento de ~50 % en la presentación de antígenos in vitro en la condición combinada.

Entendiendo el modelo

C2S-Scale convierte un vector de expresión de alta dimensión en texto ordenando genes y emitiendo los símbolos K superiores como una secuencia de nombre de gen. Esta representación alinea los datos unicelulares con las cadenas de herramientas estándar de LLM y permite que tareas como la predicción del tipo de célula, la clasificación de tejidos, la subtitulación de grupos, la predicción de perturbaciones y el control de calidad biológico se expresen como indicaciones y completaciones de texto.

https://github.com/vandijklab/cell2sentence

Datos de entrenamiento, pila y lanzamiento

C2S-Scale-Gemma-2-27B está construido sobre Gemma-2 27B (Transformer solo decodificador), entrenado en Google TPU v5 y lanzado bajo CC-BY-4.0. El corpus de entrenamiento agrega >800 conjuntos de datos públicos de scRNA-seq que abarcan >57 millones de células (humanas y de ratón) con metadatos asociados y contexto textual; El preentrenamiento unifica tokens transcriptómicos y texto biológico en un único corpus multimodal.

El resultado clave: un amplificador condicional de interferón

El equipo de investigación construyó una pantalla virtual de contexto dual sobre más de 4000 medicamentos para encontrar compuestos que aumenten la presentación de antígenos (programa MHC-I) solo en entornos de contexto inmunológico positivo (es decir, muestras de pacientes primarios con un tono bajo de interferón) y al mismo tiempo tengan un efecto insignificante en los datos de líneas celulares neutrales en contexto inmunológico. El modelo predijo una sorprendente división del contexto para silmitasertib (inhibidor de CK2): fuerte regulación positiva del MHC-I con dosis bajas de interferón, poca o ninguna sin interferón. El equipo de investigación informa sobre la validación en el laboratorio en modelos neuroendocrinos humanos no vistos en el entrenamiento, donde la combinación (silmitasertib + interferón en dosis bajas) produce un aumento marcado y sinérgico en la presentación de antígenos (≈50% en sus ensayos).

El amplificador reduce el umbral de respuesta al interferón en lugar de iniciar la presentación del antígeno de novo; las lecturas de citometría de flujo muestran una regulación positiva de HLA-A, B, C solo bajo tratamiento combinado (incluidos IFN-β e IFN-γ), en dos modelos neuroendocrinos, con ganancias de MFI representativas (p. ej., 13,6 % a 10 nM y 34,9 % a 1000 nM de silmitasertib en un modelo).

Conclusiones clave

C2S-Scale 27B (Gemma-2) codifica perfiles scRNA-seq como “oraciones celulares” textuales, lo que permite flujos de trabajo de análisis unicelular nativos de LLM. En una pantalla virtual de dos contextos (>4000 compuestos), el modelo predijo un amplificador condicional del interferón: la inhibición de CK2 (silmitasertib) aumenta la presentación del antígeno MHC-I sólo con dosis bajas de IFN. Las pruebas de laboratorio húmedo en modelos de células neuroendocrinas humanas confirmaron la predicción, con un aumento de ~50 % en la presentación del antígeno para silmitasertib + IFN frente a cualquiera de los dos solos; esto sigue siendo preclínico/in vitro. Los pesos abiertos y los documentos de uso están disponibles en Hugging Face (vandijklab) con las variantes Gemma 27B y 2B para uso en investigación.

C2S-Scale 27B es un paso técnicamente creíble para los LLM en biología: traducir scRNA-seq en “frases celulares” permite que un modelo Gemma-2 ejecute consultas programáticas sobre estados celulares y perturbaciones, y en la práctica surgió un amplificador condicional de interferón, silmitasertib (inhibición de CK2), que aumenta la presentación del antígeno MHC-I solo con dosis bajas de IFN, un mecanismo que el equipo luego validó in vitro. El valor aquí no es la retórica de los titulares sino el flujo de trabajo: detección nativa de texto en >4k compuestos en contextos inmunes duales para proponer una vía dependiente del contexto que puede convertir los tumores inmunes “fríos” en visibilidad. Dicho esto, toda la evidencia es preclínica y de laboratorio; la lectura correcta es “IA generadora de hipótesis” con pesos abiertos que permiten la replicación y las pruebas de estrés, no una afirmación clínica.

Consulte el documento técnico, el modelo en HF, la página de GitHub y los detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.