ProteinZen: un método de generación de estructuras de proteínas de todos los átomos mediante aprendizaje automático

Generar estructuras proteicas de todos los átomos es un desafío importante en el diseño de proteínas de novo. Los modelos generativos actuales han mejorado significativamente para la generación de la columna vertebral, pero siguen siendo difíciles de resolver con precisión atómica porque las identidades discretas de aminoácidos están incrustadas dentro de ubicaciones continuas de los átomos en el espacio 3D. Esta cuestión es especialmente importante en el diseño de proteínas funcionales, incluidas enzimas y aglutinantes moleculares, ya que incluso pequeñas imprecisiones a escala atómica pueden impedir la aplicación práctica. Para superar este desafío es esencial adoptar una estrategia novedosa que pueda abordar eficazmente estas dos facetas y al mismo tiempo preservar tanto la precisión como la eficiencia computacional.

Los modelos actuales como RFDiffusion y Chroma se concentran principalmente en configuraciones de red troncal y ofrecen resolución atómica restringida. Extensiones como RFDiffusion-AA y LigandMPNN intentan capturar complejidades a nivel atómico pero no pueden representar configuraciones de todos los átomos de manera exhaustiva. Los métodos basados ​​en superposición como Protpardelle y Pallatom intentan acercarse a las estructuras atómicas, pero adolecen de altos costos computacionales y desafíos en el manejo de interacciones discretas-continuas. Además, estos enfoques luchan por lograr el equilibrio entre la coherencia y la diversidad de la estructura de la secuencia, lo que los hace menos útiles para aplicaciones realistas en el diseño exacto de proteínas.

Investigadores de UC Berkeley y UCSF presentan ProteinZen, un marco generativo de dos etapas que combina la coincidencia de flujo para marcos principales con modelado de espacio latente para lograr una generación precisa de proteínas de todos los átomos. En la fase inicial, ProteinZen construye marcos de proteínas principales dentro del espacio SE(3) y al mismo tiempo genera representaciones latentes para cada residuo a través de metodologías de coincidencia de flujo. Por lo tanto, esta abstracción subyacente evita el entrelazamiento directo entre el posicionamiento atómico y las identidades de los aminoácidos, lo que simplifica el proceso de generación. En esta fase posterior, un VAE híbrido con MLM interpreta las representaciones latentes en estructuras a nivel atómico, prediciendo ángulos de torsión de las cadenas laterales, así como identidades de secuencia. La incorporación de pérdidas de paso mejora la alineación de las estructuras generadas con las propiedades atómicas reales, lo que garantiza una mayor precisión y coherencia. Este nuevo marco aborda las limitaciones de los enfoques existentes al lograr una precisión a nivel atómico sin sacrificar la diversidad y la eficiencia computacional.

ProteinZen emplea la coincidencia de flujo SE(3) para la generación de marcos troncales y la coincidencia de flujo euclidiano para características latentes, minimizando las pérdidas por rotación, traducción y predicción de representación latente. Un codificador automático híbrido VAE-MLM codifica detalles atómicos en variables latentes y los decodifica en una secuencia y configuraciones atómicas. La arquitectura del modelo incorpora redes de campo tensor (TFN) para codificar y capas IPMP modificadas para decodificar, lo que garantiza la equivarianza SE(3) y la eficiencia computacional. La capacitación se realiza en el conjunto de datos AFDB512, que se construye con mucho cuidado combinando monómeros agrupados en PDB junto con representantes de la base de datos AlphaFold que contiene proteínas con hasta 512 residuos. El entrenamiento de este modelo utiliza una combinación de datos reales y sintéticos para mejorar la generalización.

ProteinZen logra una consistencia secuencia-estructura (SSC) del 46 %, superando a los modelos existentes y manteniendo una alta diversidad estructural y de secuencia. Equilibra bien la precisión con la novedad, produciendo estructuras proteicas diversas pero únicas con una precisión competitiva. El análisis de rendimiento indica que ProteinZen funciona bien en secuencias de proteínas más pequeñas y, al mismo tiempo, promete seguir desarrollándose para el modelado de largo alcance. Las muestras sintetizadas abarcan una variedad de estructuras secundarias, con una débil propensión a las hélices alfa. La evaluación estructural confirma que la mayoría de las proteínas generadas están alineadas con los espacios de pliegue conocidos al tiempo que muestran una generalización hacia pliegues novedosos. Los resultados muestran que ProteinZen puede producir estructuras de proteínas de todos los átomos muy precisas y diversas, lo que supone un avance significativo en comparación con los enfoques generativos existentes.

En conclusión, ProteinZen presenta una metodología innovadora para la generación de proteínas de todos los átomos mediante la integración de la coincidencia de flujo SE(3) para la síntesis de la columna vertebral junto con la coincidencia de flujo latente para la reconstrucción de estructuras atómicas. A través de la separación de distintas identidades de aminoácidos y el posicionamiento continuo de los átomos, la técnica logra precisión a nivel atómico, preservando al mismo tiempo la diversidad y la eficiencia computacional. Con una consistencia secuencia-estructura del 46 % y una singularidad estructural demostrada, ProteinZen establece un nuevo estándar para el modelado generativo de proteínas. El trabajo futuro incluirá la mejora del modelado estructural de largo alcance, el refinamiento de la interacción entre el espacio latente y el decodificador y la exploración de tareas de diseño de proteínas condicionales. Este desarrollo significa una progresión significativa hacia el diseño preciso, efectivo y práctico de proteínas de todos los átomos.


Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones inigualable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, y aporta una sólida formación académica y experiencia práctica en la resolución de desafíos interdisciplinarios de la vida real.