Las proteínas, la maquinaria molecular esencial de la vida, desempeñan un papel central en numerosos procesos biológicos. Decodificar su intrincada secuencia, estructura y función (SSF) es una búsqueda fundamental en bioquímica, biología molecular y desarrollo de fármacos. Comprender la interacción entre estos tres aspectos es crucial para descubrir los principios de la vida a nivel molecular. Se han desarrollado herramientas computacionales para abordar este desafío, con métodos basados en alineación como BLAST, MUSCLE, TM-align, MMseqs2 y Foldseek logrando avances significativos. Sin embargo, estas herramientas a menudo priorizan la eficiencia al centrarse en alineaciones locales, lo que puede limitar su capacidad para capturar conocimientos globales. Además, normalmente operan dentro de una única modalidad (secuencia o estructura) sin integrar múltiples modalidades. Esta limitación se ve agravada por el hecho de que casi el 30% de las proteínas en UniProt permanecen sin anotar debido a que sus secuencias son demasiado divergentes de sus contrapartes funcionales conocidas.
Los avances recientes en herramientas basadas en redes neuronales han permitido una anotación funcional más precisa de proteínas, identificando etiquetas correspondientes para secuencias determinadas. Sin embargo, estos métodos se basan en anotaciones predefinidas y no pueden interpretar ni generar descripciones detalladas en lenguaje natural de las funciones de las proteínas. La aparición de LLM como ChatGPT y LLaMA ha demostrado capacidades excepcionales en el procesamiento del lenguaje natural. De manera similar, el auge de los modelos de lenguaje de proteínas (PLM) ha abierto nuevas vías en la biología computacional. Sobre la base de estos desarrollos, los investigadores proponen crear un modelo de proteína fundamental que aproveche el modelado de lenguaje avanzado para representar la proteína SSF de manera integral, abordando las limitaciones de los enfoques actuales.
ProTrek, desarrollado por investigadores de la Universidad de Westlake, es un PLM trimodal de última generación que integra SSF. Utilizando el aprendizaje contrastivo, alinea estas modalidades para permitir búsquedas rápidas y precisas en nueve combinaciones de SSF. ProTrek supera a las herramientas existentes como Foldseek y MMseqs2 en velocidad (100x) y precisión, al tiempo que supera a ESM-2 en tareas de predicción posteriores. Capacitado con 40 millones de pares de proteína-texto, ofrece representación global y aprendizaje para identificar proteínas con funciones similares a pesar de las diferencias estructurales o de secuencia. Con sus capacidades de ajuste y recuperación de disparo cero, ProTrek establece nuevos puntos de referencia en investigación y análisis de proteínas.
Los datos descriptivos de las subsecciones de UniProt se clasificaron en nivel de secuencia (p. ej., descripciones de funciones) y nivel de residuo (p. ej., sitios de unión) para construir pares proteína-función. Se utilizó GPT-4 para organizar datos a nivel de residuos y parafrasear descripciones a nivel de secuencia, lo que produjo 14 millones de pares de entrenamiento de Swiss-Prot. Se entrenó previamente un modelo ProTrek inicial en este conjunto de datos y luego se usó para filtrar UniRef50, produciendo un conjunto de datos final de 39 millones de pares. La capacitación involucró pérdidas de InfoNCE y MLM, aprovechando los codificadores ESM-2 y PubMedBERT con estrategias de optimización como AdamW y DeepSpeed. ProTrek superó las líneas de base en los puntos de referencia utilizando 4.000 proteínas Swiss-Prot y 104.000 negativos UniProt, evaluados mediante métricas como MAP y precisión.
ProTrek representa un avance innovador en la exploración de proteínas al integrar secuencia, estructura y función del lenguaje natural (SSF) en un sofisticado modelo de lenguaje trimodal. Aprovechar el aprendizaje contrastivo cierra la brecha entre los datos de proteínas y la interpretación humana, lo que permite búsquedas altamente eficientes en nueve combinaciones de modalidades por pares de SSF. ProTrek ofrece mejoras transformadoras, particularmente en la recuperación de funciones de secuencias de proteínas, logrando entre 30 y 60 veces el rendimiento de los métodos anteriores. También supera las herramientas de alineación tradicionales como Foldseek y MMseqs2, lo que demuestra mejoras de velocidad más de 100 veces y una mayor precisión en la identificación de proteínas funcionalmente similares con estructuras diversas. Además, ProTrek supera consistentemente al modelo ESM-2 de última generación, sobresaliendo en 9 de 11 tareas posteriores y estableciendo nuevos estándares en inteligencia de proteínas.
Estas capacidades establecen a ProTrek como una herramienta fundamental de investigación de proteínas y análisis de bases de datos. Su notable rendimiento se debe a su extenso conjunto de datos de entrenamiento, que es significativamente mayor que el de modelos comparables. Las capacidades de comprensión del lenguaje natural de ProTrek van más allá de los enfoques convencionales de concordancia de palabras clave, permitiendo búsquedas contextuales y aplicaciones avanzadas como el diseño de proteínas guiado por texto y sistemas ChatGPT específicos de proteínas. ProTrek permite a los investigadores analizar vastas bases de datos de proteínas de manera eficiente y abordar interacciones complejas entre proteínas y texto al brindar velocidad, precisión y versatilidad superiores, allanando el camino para avances significativos en la ciencia y la ingeniería de proteínas.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.
🚨 PRÓXIMO SEMINARIO WEB GRATUITO SOBRE IA (15 DE ENERO DE 2025): Aumente la precisión del LLM con datos sintéticos e inteligencia de evaluación–Únase a este seminario web para obtener información práctica para mejorar el rendimiento y la precisión del modelo LLM y, al mismo tiempo, proteger la privacidad de los datos..
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.