Xltoagsnqydydtshedvqs.png

Las oncoproteínas de fusión, formadas por translocaciones cromosómicas, son factores clave en muchos cánceres, especialmente los pediátricos. Estas proteínas quiméricas son difíciles de atacar con fármacos debido a sus estructuras grandes y desordenadas y a la falta de zonas de unión distintas. Los métodos tradicionales de diseño de fármacos, como las moléculas pequeñas, a menudo fallan porque necesitan más especificidad o se unen a proteínas celulares cruciales. Los modelos de lenguaje de proteínas (pLM) se han convertido en una herramienta prometedora que ofrece información detallada basada en secuencias sobre la función de las proteínas. A pesar del éxito con varias proteínas, los planes actuales aún deben incluir capacitación sobre oncoproteínas de fusión, lo que limita su aplicación en el diseño de terapias para estos objetivos desafiantes.

Investigadores de la Universidad de Duke han desarrollado FusOn-pLM, un nuevo modelo de lenguaje proteico diseñado para oncoproteínas de fusión. Este modelo afina el pLM ESM-2 avanzado, específicamente en secuencias de oncoproteínas de fusión de grandes bases de datos. Introdujeron un innovador enfoque de modelado de lenguaje enmascarado que se centra en residuos clave probablemente involucrados en las interacciones de proteínas. Este método mejora la representación de las oncoproteínas de fusión, superando al modelo base ESM-2 y otras incorporaciones en varios puntos de referencia. Las incorporaciones mejoradas están diseñadas para ayudar en la terapia dirigida a estas proteínas desafiantes. FusOn-pLM es de acceso público para futuras investigaciones y aplicaciones.

El conjunto de datos de entrenamiento para FusOn-pLM se seleccionó meticulosamente a partir de las bases de datos FusionPDB y FOdb, reuniendo 41.420 secuencias de FusionPDB y 4.536 de FOdb. Solo se seleccionaron secuencias que contienen los 20 aminoácidos naturales y menos de 2000 aminoácidos de longitud, lo que garantiza que se ajusten a las limitaciones de la memoria de la GPU. Después de eliminar duplicados de entradas superpuestas, se reservaron 177 secuencias FOdb para evaluación comparativa. Las secuencias restantes se agruparon utilizando la herramienta MMSeqs2, aplicando un umbral mínimo de identidad de secuencia del 30% y un umbral de cobertura del 80%. Los grupos se dividieron en conjuntos de entrenamiento, validación y prueba en una proporción de 80/10/10. Para la evaluación comparativa, se seleccionaron conjuntos de datos específicos de FOdb para tareas como predecir la tendencia de las oncoproteínas de fusión a formar condensados ​​y su localización celular. Se utilizaron conjuntos de datos adicionales para predecir los resultados de enfermedades relacionadas con el cáncer y analizar las propiedades de las regiones intrínsecamente desordenadas (IDR).

La eficacia de FusOn-pLM se evaluó mediante varias tareas de referencia, incluida la predicción de la separación de fases de las oncoproteínas de fusión, su localización en la célula y sus asociaciones con cánceres específicos como el carcinoma invasivo de mama y el adenocarcinoma de estómago. Se empleó una estrategia de enmascaramiento probabilístico dirigida para mejorar la comprensión del modelo, centrándose en los aminoácidos que probablemente participen en interacciones proteína-proteína identificadas mediante predicciones de SaLT y PepPr. Esta estrategia de enmascaramiento, aplicada al 15% de cada secuencia, mejora la capacidad del modelo para reconocer los puntos de interacción dentro de las oncoproteínas de fusión. Durante el entrenamiento, el modelo ajustó el modelo avanzado ESM-2-650M descongelando los pesos y sesgos de sus capas finales. Las incorporaciones de FusOn-pLM se compararon con otros tipos, incluidas las de ESM-2-650M, y con incorporaciones de FOdb seleccionadas manualmente, lo que demuestra un rendimiento superior en la predicción de trastornos y la captura de propiedades fisicoquímicas clave.

Las incorporaciones de FusOn-pLM se mejoraron mediante enmascaramiento probabilístico, en particular el enfoque basado en SaLT y PepPr, lo que condujo a un rendimiento óptimo. El modelo se evaluó en diversas tareas y demostró un rendimiento superior en la predicción del comportamiento y las propiedades de las oncoproteínas de fusión, como su propensión a formar puntos y su localización celular. Además, FusOn-pLM destacó en la identificación de regiones intrínsecamente desordenadas y sus propiedades fisicoquímicas, superando a otros métodos de inclusión. Las técnicas de visualización mostraron que las incorporaciones de FusOn-pLM separan claramente las oncoproteínas de fusión de sus componentes, lo que refleja sus características únicas y su relevancia biológica.

En conclusión, FusOn-pLM, un modelo de lenguaje proteico basado en ESM-2, está específicamente diseñado para capturar las propiedades únicas de las oncoproteínas de fusión, que normalmente están desordenadas y contribuyen al desarrollo del cáncer. A diferencia de los modelos e incorporaciones tradicionales como FOdb, FusOn-pLM destaca en tareas relacionadas con oncoproteínas de fusión y distingue eficazmente estas proteínas de sus componentes. El trabajo futuro tiene como objetivo utilizar FusOn-pLM para diseñar degradadores de proteínas específicos e integrar modificaciones postraduccionales para intervenciones terapéuticas más precisas. Este modelo representa un avance significativo en productos biológicos para el tratamiento de cánceres de proteínas de fusión.


Revisar la Papel y Modelo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.