Un equipo de investigadores de la Universidad de Washington ha colaborado para abordar los desafíos en el método de diseño de secuencias de proteínas mediante el uso de un método de diseño de secuencias de proteínas basado en aprendizaje profundo, LigandMPNN. El modelo se dirige a enzimas y diseños de sensores y aglutinantes de moléculas pequeñas. Los enfoques existentes basados en la física, como Rosetta, y los modelos basados en el aprendizaje profundo, como ProteinMPNN, no pueden modelar átomos y moléculas no proteicos de forma explícita, lo que dificulta el diseño preciso de secuencias de proteínas que interactúan con moléculas pequeñas, nucleótidos y metales.
Los métodos mencionados descuidan la consideración explícita de átomos y moléculas no proteicos, lo cual es crucial para el diseño de enzimas, interacciones proteína-ADN/ARN y aglutinantes proteína-molécula pequeña y proteína-metal. La solución propuesta, LigandMPNN, se basa en la arquitectura ProteinMPNN pero incorpora explícitamente el contexto atómico no proteico completo. LigandMPNN presenta gráficos de proteína-ligando, aprovechando las redes neuronales para modelar interacciones y codificar geometrías de átomos de ligando. La modificación lleva a LigandMPNN a generar secuencias y conformaciones de cadenas laterales adaptadas a contextos no proteicos específicos.
LigandMPNN emplea un enfoque basado en gráficos, tratando los residuos de proteínas como nodos e incorporando bordes vecinos más cercanos según las distancias Cα-Cα. El modelo introduce gráficos de proteína-ligando para capturar interacciones, con residuos de proteínas y átomos de ligando como nodos y bordes que representan relaciones geométricas. El gráfico de ligando mejora la transferencia de información a la proteína a través de los bordes ligando-proteína.
El experimento demostró que LigandMPNN y su paquete de cadena lateral tienen un mejor rendimiento en comparación con Rosetta y ProteinMPNN, con una mayor recuperación de secuencia para residuos que interactúan con moléculas pequeñas, nucleótidos y metales con un 20-30% más de precisión y muestra su efectividad en el diseño estructural detallado. LigandMPNN también supera a los modelos existentes en velocidad y eficiencia. LigandMPNN es aproximadamente 250 veces más rápido que Rosetta.
En conclusión, LigandMPNN llena un vacío crítico en los métodos de diseño de secuencias de proteínas existentes al incluir explícitamente átomos y moléculas no proteicos. El enfoque basado en gráficos de LigandMPNN muestra una mejora notable en el rendimiento, lo que conduce a una mayor recuperación de secuencia y una precisión superior del empaquetado de cadenas laterales alrededor de moléculas pequeñas, nucleótidos y metales. LigandMPNN tuvo un desempeño excepcional en el diseño de moléculas pequeñas y proteínas de unión al ADN con alta afinidad y especificidad, lo que sería de gran ayuda en la ingeniería de proteínas.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y noticias de Google. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.