EnzymeCAGE: un marco de aprendizaje profundo diseñado para predecir la especificidad catalítica de reacciones enzimáticas mediante la codificación tanto de estructuras enzimáticas específicas de bolsillo como de reacciones químicas

Las enzimas son catalizadores moleculares indispensables que facilitan los procesos bioquímicos vitales para la vida. Desempeñan papeles cruciales en el metabolismo, la industria y la biotecnología. A pesar de su importancia, existen importantes lagunas en nuestro conocimiento sobre estos catalizadores. De los aproximadamente 190 millones de secuencias de proteínas catalogadas en bases de datos como UniProt, menos del 0,3% están curadas por expertos y menos del 20% tienen validación experimental. Además, entre el 40% y el 50% de las reacciones enzimáticas conocidas permanecen sin vincular a enzimas específicas, lo que a menudo se denomina reacciones “huérfanas”. Estas lagunas de conocimiento obstaculizan el progreso en biología sintética y innovación biotecnológica. Las herramientas computacionales tradicionales, incluida la clasificación EC y los métodos de similitud de secuencia, con frecuencia se quedan cortas, particularmente cuando se trata de enzimas de baja homología de secuencia o reacciones que no se alinean con las clasificaciones establecidas. Para superar estas limitaciones, se necesitan nuevas estrategias que combinen conocimientos estructurales y funcionales.

EnzymeCAGE: un nuevo enfoque

Un equipo de investigadores de la Universidad Jiaotong de Shanghai, la Universidad de Ciencia y Tecnología de Hong Kong, la Universidad de Hainan, la Universidad Sun Yat-sen, la Universidad McGill, el Instituto de IA Mila-Quebec y el MIT desarrollaron un nuevo modelo básico de código abierto para la recuperación y función de enzimas. predicción llamada jaula de enzimas. Este modelo se entrena con un conjunto de datos de aproximadamente un millón de pares de enzimas y reacciones y emplea el marco de preentrenamiento de imágenes y lenguaje contrastivo (CLIP) para anotar enzimas invisibles y reacciones huérfanas. EnzymeCAGE, acrónimo de modelo de recuperación de enzimas mejorado GEometric con conocimiento de CAtalytic, integra el aprendizaje estructural con conocimientos evolutivos para abordar las limitaciones de los métodos convencionales. El modelo vincula eficazmente proteínas no anotadas con reacciones catalíticas e identifica enzimas para reacciones novedosas. EnzymeCAGE es una herramienta sólida para enzimología y biología sintética que aprovecha las estructuras enzimáticas y los mecanismos de reacción. Sus módulos conscientes de la geometría y guiados por reacciones permiten obtener información precisa sobre la catálisis enzimática, lo que la hace aplicable a una amplia gama de especies y contextos metabólicos.

Características técnicas y beneficios

EnzymeCAGE incorpora varias funciones avanzadas para modelar eficazmente las interacciones entre enzimas y reacciones. En esencia, se encuentra el módulo de atención de bolsillo con geometría mejorada, que utiliza información estructural como distancias de residuos y ángulos diédricos para identificar sitios catalíticos. Esto mejora tanto la precisión como la interpretabilidad de sus predicciones. Además, el modelo emplea un módulo de interacción de reacción consciente del centro que enfatiza los centros de reacción a través de una atención ponderada, capturando la dinámica de las transformaciones sustrato-producto. EnzymeCAGE combina codificación local a nivel de bolsillo utilizando Graph Neural Networks (GNN) con características globales a nivel de enzima del modelo de lenguaje de proteínas ESM2. Este enfoque holístico proporciona una representación integral del potencial catalítico. Además, la compatibilidad del modelo con estructuras enzimáticas tanto experimentales como predichas amplía su aplicabilidad a tareas como la recuperación de enzimas, la eliminación de reacciones huérfanas y la ingeniería de vías.

Rendimiento y conocimientos

EnzymeCAGE se ha sometido a pruebas rigurosas que demuestran un rendimiento superior en comparación con los métodos existentes. En el conjunto de pruebas de Loyal-1968, que incluía enzimas invisibles, el modelo logró una mejora del 44 % en la predicción de funciones y un aumento del 73 % en la precisión de la recuperación de enzimas en relación con los enfoques tradicionales. Registró una tasa de éxito en el Top 1 del 33,7 % y una tasa de éxito en el Top 10 superior al 63 %, superando a puntos de referencia como BLASTp y Selenzyme. En las tareas de eliminación de reacciones huérfanas, EnzymeCAGE identificó constantemente enzimas adecuadas para reacciones huérfanas, logrando factores de enriquecimiento más altos y clasificando métricas en diversos conjuntos de pruebas. Los estudios de casos prácticos destacan aún más sus capacidades, incluida la reconstrucción precisa de la vía de biosíntesis de glutarato, donde superó los métodos tradicionales en la clasificación y selección de enzimas. Estos resultados subrayan la utilidad de EnzymeCAGE para abordar los principales desafíos en la predicción de la función enzimática y la investigación de catálisis.

Conclusión

EnzymeCAGE representa un importante paso adelante para abordar los desafíos de larga data en la investigación de enzimas, particularmente en la predicción de funciones y la anotación de reacciones. Al integrar conocimientos geométricos, estructurales y funcionales, ofrece predicciones precisas para funciones enzimáticas invisibles, anotaciones para reacciones huérfanas y soporte para la ingeniería de vías. La adaptabilidad del modelo y sus capacidades de ajuste mejoran su utilidad para familias de enzimas específicas y aplicaciones industriales. EnzymeCAGE sienta una base sólida para futuros avances en biocatálisis, biología sintética e ingeniería metabólica, ofreciendo nuevas vías para profundizar nuestra comprensión de los procesos enzimáticos y su potencial de innovación.


Verificar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones inigualable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como empresario e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.