La ingeniería de proteínas es esencial para diseñar proteínas con funciones específicas, pero navegar por el complejo panorama de aptitud de las mutaciones de proteínas plantea un desafío significativo, lo que dificulta encontrar secuencias óptimas. Los enfoques de disparo cero, que predicen los efectos mutacionales sin depender de homólogos o alineamientos de secuencias múltiples (MSA), reducen algunas dependencias pero no logran predecir diversas propiedades de las proteínas. Los modelos basados en aprendizaje entrenados en escaneo mutacional profundo (DMS) o datos MAVE se han utilizado para predecir paisajes de aptitud solos o con MSA o modelos de lenguaje. Aun así, estos modelos basados en datos a menudo tienen dificultades cuando los datos experimentales son escasos.
Los investigadores de Microsoft Research AI for Science presentaron µFormer, un marco de aprendizaje profundo que integra un modelo de lenguaje proteico previamente entrenado con módulos de puntuación especializados para predecir los efectos mutacionales de las proteínas. µFormer predice mutantes de alto orden, modela interacciones epistáticas y maneja inserciones. Con el aprendizaje de refuerzo, µFormer explora de manera eficiente vastos espacios mutantes para diseñar variantes proteicas mejoradas. El modelo predijo mutantes con un aumento de 2000 veces en la tasa de crecimiento bacteriano, impulsado por una actividad enzimática mejorada. El éxito de µFormer se extiende a escenarios desafiantes, incluidas las mutaciones multipuntuales, y sus predicciones se validaron a través de experimentos de laboratorio, lo que destaca su potencial para optimizar el diseño de proteínas.
El modelo µFormer es un enfoque de aprendizaje profundo diseñado para predecir la aptitud de secuencias de proteínas mutadas. Funciona en dos etapas: primero, mediante el entrenamiento previo de un modelo de lenguaje proteico enmascarado (PLM) en un gran conjunto de datos de secuencias de proteínas no etiquetadas, y segundo, mediante la predicción de puntajes de aptitud utilizando tres módulos de puntuación integrados en el modelo entrenado previamente. Estos módulos (nivel residual, nivel de motivo y nivel de secuencia) capturan diferentes aspectos de la secuencia de proteínas y combinan sus resultados para generar el puntaje de aptitud final. El modelo se entrena utilizando datos de aptitud conocidos, lo que minimiza los errores entre los puntajes previstos y los reales.
Además, el µFormer se combina con una estrategia de aprendizaje por refuerzo (RL) para explorar el vasto espacio de posibles mutaciones de manera eficiente. El problema de ingeniería de proteínas en este marco se modela como un proceso de decisión de Markov (MDP), con optimización de política proximal (PPO) utilizada para optimizar las políticas de mutación. Se agrega ruido de Dirichlet durante el proceso de búsqueda de mutaciones para garantizar una exploración efectiva y evitar óptimos locales. Se realizaron comparaciones de referencia utilizando modelos como ESM-1v y ECNet, y se evaluaron en conjuntos de datos como FLIP y ProteinGym.
µFormer, un modelo híbrido que combina un modelo de lenguaje proteico autosupervisado con módulos de puntuación supervisados, predice puntuaciones de aptitud proteica de manera eficiente. Preentrenado previamente con 30 millones de secuencias proteicas de UniRef50 y ajustado con tres módulos de puntuación, µFormer superó a diez métodos en el benchmark ProteinGym, logrando una correlación de Spearman media de 0,703. Predice mutaciones de alto orden y epistasis, con fuertes correlaciones para mutaciones multisitio. En la optimización de proteínas, µFormer, junto con el aprendizaje de refuerzo, diseñó variantes de TEM-1 que mejoraron significativamente el crecimiento, con un mutante doble que superó a un mutante cuádruple conocido.
En conclusión, estudios previos han demostrado el potencial de los modelos de lenguaje proteico basados en secuencias en tareas como la predicción de funciones enzimáticas y el diseño de anticuerpos. µFormer, un modelo basado en secuencias con tres módulos de puntuación, fue desarrollado para generalizar en diversas propiedades proteicas. Logró un rendimiento de vanguardia en tareas de predicción de aptitud, incluidas mutaciones complejas y epistasis. µFormer también demostró su capacidad para optimizar la actividad enzimática, particularmente en la predicción de variantes de TEM-1 contra cefotaxima. A pesar de su éxito, se pueden realizar mejoras incorporando datos estructurales, desarrollando modelos que tengan en cuenta el fenotipo y creando modelos capaces de manejar secuencias proteicas más largas para una mayor precisión.
Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y LinkedInÚnete a nuestro Canal de Telegram.
Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, le apasiona aplicar la tecnología y la IA para abordar desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.