Desbloqueando el lenguaje de las proteínas: cómo los modelos de lenguaje grandes están revolucionando la comprensión de la secuencia de proteínas

Los investigadores han establecido paralelismos entre las secuencias de proteínas y el lenguaje natural debido a sus estructuras secuenciales, lo que ha llevado a avances en los modelos de aprendizaje profundo para ambos campos. Los LLM se han destacado en tareas de PNL y este éxito ha inspirado intentos de adaptarlos para comprender las proteínas. Sin embargo, esta adaptación enfrenta un desafío: los conjuntos de datos existentes necesitan correlaciones más directas entre las secuencias de proteínas y las descripciones de texto, lo que dificulta la capacitación y evaluación efectiva de los LLM para la comprensión de proteínas. A pesar de los avances en los MMLM, la ausencia de conjuntos de datos completos que integren secuencias de proteínas con contenido textual limita la utilización total de estos modelos en la ciencia de las proteínas.

Investigadores de varias instituciones, incluidas Johns Hopkins y UNSW Sydney, han creado ProteinLMDataset para mejorar la comprensión de las secuencias de proteínas por parte de los LLM. Este conjunto de datos contiene 17,46 mil millones de tokens para preentrenamiento autosupervisado y 893.000 instrucciones para ajuste fino supervisado. También desarrollaron ProteinLMBench, el primer punto de referencia con 944 preguntas de opción múltiple verificadas manualmente para evaluar la comprensión de proteínas en LLM. El conjunto de datos y el punto de referencia tienen como objetivo cerrar la brecha en la integración de datos de proteínas y texto, permitiendo a los LLM comprender secuencias de proteínas sin codificadores adicionales y generar conocimiento preciso sobre proteínas utilizando el novedoso enfoque de Cadena de Pensamiento Enzimática ECoT.

La revisión de la literatura destaca limitaciones clave en los conjuntos de datos existentes y en los puntos de referencia de secuencias de proteínas y PNL. Es necesario realizar evaluaciones más integrales, multitarea y multidominio para conjuntos de datos chino-inglés, con puntos de referencia existentes a menudo restringidos geográficamente y necesitando una mayor interpretabilidad. En los conjuntos de datos de secuencias de proteínas, recursos importantes como UniProtKB y RefSeq enfrentan desafíos para representar completamente la diversidad de proteínas y anotar datos con precisión, con sesgos y errores de contribuciones de la comunidad y sistemas automatizados. Si bien son integrales, las bases de datos de diseño de proteínas como KEGG y STRING están limitadas por sesgos, curación que requiere muchos recursos y dificultades para integrar diversas fuentes de datos.

ProteinLMDataset se divide en componentes supervisados ​​y autosupervisados. El conjunto de datos autosupervisado incluye textos científicos en chino e inglés, pares de secuencias de proteínas y textos en inglés de PubMed y UniProtKB, y amplias entradas de la base de datos de PMC, que proporcionan más de 10 mil millones de tokens. El componente de ajuste fino supervisado consta de 893.000 instrucciones en siete segmentos, como la funcionalidad de las enzimas y la participación de enfermedades, procedentes principalmente de UniProtKB. ProteinLMBench, el punto de referencia de evaluación, contiene 944 preguntas de opción múltiple meticulosamente seleccionadas sobre propiedades y secuencias de proteínas. Este método de recopilación de conjuntos de datos garantiza una representación, filtrado y tokenización integrales para una capacitación y evaluación efectiva de los LLM en ciencia de proteínas.

ProteinLMDataset y ProteinLMBench están diseñados para una comprensión integral de la secuencia de proteínas. El conjunto de datos es diverso, con tokens que van desde 21 hasta más de 2 millones de caracteres, recopilados de múltiples fuentes, incluidos pares de texto chino-inglés, resúmenes de PubMed y UniProtKB. Los datos autosupervisados ​​consisten principalmente en secuencias de proteínas y textos científicos. Al mismo tiempo, el conjunto de datos de ajuste supervisado cubre siete segmentos, como la funcionalidad de las enzimas y la participación de enfermedades, con longitudes de tokens de 65 a 70 500. ProteinLMBench incluye 944 preguntas equilibradas de opción múltiple para evaluar el rendimiento del modelo. Rigurosos controles de seguridad y filtrado garantizan la calidad e integridad de los datos. Los resultados del experimento muestran que combinar el aprendizaje autosupervisado con el ajuste fino mejora la precisión del modelo, lo que subraya la eficacia del conjunto de datos.

En conclusión, ProteinLMDataset y ProteinLMBench proporcionan un marco sólido para entrenar y evaluar modelos de lenguaje en secuencias de proteínas y textos bilingües. Al abarcar diversas fuentes e incluir pares de textos chino-inglés, el conjunto de datos mejora la comprensión multilingüe y entre idiomas de las características de las proteínas. Los experimentos demuestran mejoras significativas en la precisión del modelo con ajustes finos, especialmente cuando se utilizan conjuntos de datos supervisados ​​​​y autosupervisados. Este trabajo cierra la brecha en la adaptación de los LLM a la ciencia de las proteínas, mostrando el potencial para transformar la investigación y las aplicaciones biológicas. El modelo InternLM2-7B, cuando se entrena con este conjunto de datos, supera al GPT-4 en tareas de comprensión de proteínas.

asuntos.


Revisar la Papel y Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.