Screenshot 2024 06 06 At 3.16.52 Am.png

Mapear secuencias de proteínas con sus funciones biológicas es crucial en biología, ya que las proteínas desempeñan diversas funciones en los organismos. Las funciones se clasifican utilizando ontologías como términos de Gene Ontology (GO), números de Enzyme Commission (EC) y familias Pfam. Las predicciones computacionales son esenciales debido al costo de los experimentos de laboratorio y al rápido crecimiento de las bases de datos. Las técnicas incluyen métodos basados ​​en homología, que utilizan herramientas de alineación de secuencias como BLAST para inferir funciones, y métodos de aprendizaje profundo, que predicen funciones directamente a partir de secuencias. Los desafíos incluyen generalizar predicciones a nuevas clases de proteínas y lidiar con proteínas que carecen de similitud con secuencias conocidas, conocidas como la «materia oscura» del universo proteico.

Investigadores de Google DeepMind, Google y la Universidad de Cambridge presentaron ProtEx, un método de recuperación aumentada para la predicción de la función de las proteínas. ProtEx utiliza ejemplos de una base de datos para mejorar la precisión, la solidez y la generalización a nuevas clases. Combina búsquedas de similitudes no paramétricas con aprendizaje profundo inspirado en técnicas de recuperación aumentada en PNL y visión. ProtEx recupera ejemplos positivos y negativos utilizando herramientas como BLAST y entrena un modelo neuronal para comparar estos ejemplos con la consulta. Este enfoque logra resultados de última generación en la predicción de números EC, términos GO y familias Pfam, sobresaliendo particularmente con secuencias raras y diferentes. Los estudios de ablación confirman la eficacia de la estrategia de preentrenamiento y el condicionamiento ejemplar.

ProtEx se basa en búsquedas tradicionales de similitud de proteínas y modelos neuronales recientes para la predicción de la función de las proteínas. Los métodos convencionales, como BLAST, recuperan secuencias homólogas para inferir funciones. Sin embargo, los modelos de aprendizaje profundo pueden superarlos al asignar secuencias directamente a funciones. ProtEx integra estos enfoques, utilizando BLAST para recuperar ejemplos y un modelo neuronal para condicionar las predicciones sobre estos ejemplos. Este método sobresale, especialmente para clases raras e invisibles. Los modelos de recuperación aumentada lo inspiran en PNL y visión, que mejoran el rendimiento al incorporar el contexto de los ejemplos recuperados. ProtEx se adapta eficazmente a nuevas etiquetas sin ajustes adicionales, aprovechando el entrenamiento previo de secuencias múltiples para mejorar la precisión de la predicción.

ProtEx tiene como objetivo predecir las etiquetas de la función de las proteínas para una secuencia de aminoácidos determinada. El proceso implica recuperar secuencias ejemplares positivas y negativas relevantes para cada etiqueta candidata utilizando métodos como BLAST. El modelo predice la relevancia de cada etiqueta condicionando la secuencia y sus ejemplos y agrega estas predicciones para formar el conjunto de etiquetas final. Un generador de etiquetas candidatas reduce la cantidad de etiquetas consideradas para mejorar la eficiencia. El entrenamiento previo implica comparar pares de secuencias con diferentes similitudes, mientras que el ajuste utiliza datos de entrenamiento para crear ejemplos positivos y negativos. El modelo emplea una arquitectura de transformador T5 para manejar estas tareas.

ProtEx se evaluó utilizando varios conjuntos de datos sobre el número EC, el término GO y las tareas de clasificación Pfam. BLAST se utilizó como recuperador para tareas EC y GO, mientras que se aplicó un enfoque de recuperación por clase al conjunto de datos más grande de Pfam. En las tareas de predicción de EC y GO, ProtEx superó a los métodos anteriores y mostró mejoras significativas cuando se condicionó a secuencias ejemplares. ProtEx también logró un rendimiento de vanguardia en el conjunto de datos de Pfam, demostrando una precisión constante en familias de proteínas comunes y raras. El modelo se entrenó previamente en pares de secuencias y se ajustó con ejemplos positivos y negativos utilizando una arquitectura de transformador T5.

En conclusión, ProtEx introduce un método que integra la búsqueda de similitudes basada en homología con modelos neuronales previamente entrenados, logrando resultados de última generación en tareas de clasificación EC, GO y Pfam. A pesar de los mayores requisitos computacionales debido a la codificación de múltiples secuencias y la realización de predicciones de clases independientes, es posible mejorar la eficiencia mediante ajustes arquitectónicos y la generación de etiquetas candidatas. Las mejoras futuras podrían aprovechar técnicas avanzadas de búsqueda de similitudes y arquitecturas especializadas. Si bien el método mejora las predicciones de la función de las proteínas, la verificación mediante experimentos de laboratorio húmedo sigue siendo esencial para aplicaciones críticas. Este enfoque se basa en herramientas existentes y ofrece anotaciones funcionales de proteínas más precisas y sólidas.


Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 43k+ ML | Además, consulte nuestro Plataforma de eventos de IA


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.