Desbloqueando el lenguaje de las proteínas: cómo los modelos de lenguaje grandes están revolucionando la comprensión de la secuencia de proteínas

Los investigadores han establecido paralelismos entre las secuencias de proteínas y el lenguaje natural debido a sus estructuras secuenciales, lo que ha llevado a avances en los modelos de aprendizaje profundo para ambos campos. Los LLM se han destacado en tareas de PNL y este éxito ha inspirado intentos de adaptarlos para comprender las proteínas. Sin embargo, esta adaptación enfrenta un desafío: los conjuntos de datos existentes necesitan correlaciones más directas entre las secuencias de proteínas y las descripciones de texto, lo que dificulta la capacitación y evaluación efectiva de los LLM para la comprensión de proteínas. A pesar de los avances en los MMLM, la ausencia de conjuntos de datos completos que integren secuencias de proteínas con contenido textual limita la utilización total de estos modelos en la ciencia de las proteínas.

Investigadores de varias instituciones, incluidas Johns Hopkins y UNSW Sydney, han creado ProteinLMDataset para mejorar la comprensión de las secuencias de proteínas por parte de los LLM. Este conjunto de datos contiene 17,46 mil millones de tokens para preentrenamiento autosupervisado y 893.000 instrucciones para ajuste fino supervisado. También desarrollaron ProteinLMBench, el primer punto de referencia con 944 preguntas de opción múltiple verificadas manualmente para evaluar la comprensión de proteínas en LLM. El conjunto de datos y el punto de referencia tienen como objetivo cerrar la brecha en la integración de datos de proteínas y texto, permitiendo a los LLM comprender secuencias de proteínas sin codificadores adicionales y generar conocimiento preciso sobre proteínas utilizando el novedoso enfoque de Cadena de Pensamiento Enzimática ECoT.

La revisión de la literatura destaca limitaciones clave en los conjuntos de datos existentes y en los puntos de referencia de secuencias de proteínas y PNL. Es necesario realizar evaluaciones más integrales, multitarea y multidominio para conjuntos de datos chino-inglés, con puntos de referencia existentes a menudo restringidos geográficamente y necesitando una mayor interpretabilidad. En los conjuntos de datos de secuencias de proteínas, recursos importantes como UniProtKB y RefSeq enfrentan desafíos para representar completamente la diversidad de proteínas y anotar datos con precisión, con sesgos y errores de contribuciones de la comunidad y sistemas automatizados. Si bien son integrales, las bases de datos de diseño de proteínas como KEGG y STRING están limitadas por sesgos, curación que requiere muchos recursos y dificultades para integrar diversas fuentes de datos.

ProteinLMDataset se divide en componentes supervisados y autosupervisados. El conjunto de datos autosupervisado incluye textos científicos en chino e inglés, pares de secuencias de proteínas y textos en inglés de PubMed y UniProtKB, y amplias entradas de la base de datos de PMC, que proporcionan más de 10 mil millones de tokens. El componente de ajuste fino supervisado consta de 893.000 instrucciones en siete segmentos, como la funcionalidad de las enzimas y la participación de enfermedades, procedentes principalmente de UniProtKB. ProteinLMBench, el punto de referencia de evaluación, contiene 944 preguntas de opción múltiple meticulosamente seleccionadas sobre propiedades y secuencias de proteínas. Este método de recopilación de conjuntos de datos garantiza una representación, filtrado y tokenización integrales para una capacitación y evaluación efectiva de los LLM en ciencia de proteínas.

ProteinLMDataset y ProteinLMBench están diseñados para una comprensión integral de la secuencia de proteínas. El conjunto de datos es diverso, con tokens que van desde 21 hasta más de 2 millones de caracteres, recopilados de múltiples fuentes, incluidos pares de texto chino-inglés, resúmenes de PubMed y UniProtKB. Los datos autosupervisados consisten principalmente en secuencias de proteínas y textos científicos. Al mismo tiempo, el conjunto de datos de ajuste supervisado cubre siete segmentos, como la funcionalidad de las enzimas y la participación de enfermedades, con longitudes de tokens de 65 a 70 500. ProteinLMBench incluye 944 preguntas equilibradas de opción múltiple para evaluar el rendimiento del modelo. Rigurosos controles de seguridad y filtrado garantizan la calidad e integridad de los datos. Los resultados del experimento muestran que combinar el aprendizaje autosupervisado con el ajuste fino mejora la precisión del modelo, lo que subraya la eficacia del conjunto de datos.

En conclusión, ProteinLMDataset y ProteinLMBench proporcionan un marco sólido para entrenar y evaluar modelos de lenguaje en secuencias de proteínas y textos bilingües. Al abarcar diversas fuentes e incluir pares de textos chino-inglés, el conjunto de datos mejora la comprensión multilingüe y entre idiomas de las características de las proteínas. Los experimentos demuestran mejoras significativas en la precisión del modelo con ajustes finos, especialmente cuando se utilizan conjuntos de datos supervisados y autosupervisados. Este trabajo cierra la brecha en la adaptación de los LLM a la ciencia de las proteínas, mostrando el potencial para transformar la investigación y las aplicaciones biológicas. El modelo InternLM2-7B, cuando se entrena con este conjunto de datos, supera al GPT-4 en tareas de comprensión de proteínas.

asuntos.

Revisar la Papel y Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 44k+ ML

A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

Desbloqueando el lenguaje de las proteínas: cómo los modelos de lenguaje grandes están revolucionando la comprensión de la secuencia de proteínas

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Conozca GitNexus: un motor de gráficos de conocimiento nativo de MCP de código abierto que brinda al código Claude y al cursor un conocimiento estructural completo de la base de código

Google DeepMind presenta Vision Banana: un generador de imágenes ajustado por instrucciones que supera a SAM 3 en segmentación y profundidad Anything V3 en estimación de profundidad métrica

Cómo seleccionar variables de forma sólida en un modelo de puntuación

You missed

Se revelan las tarifas de estacionamiento en aeropuertos más caras de Europa « Euro Weekly News

Demi Lovato y Jutes interpretan la canción de Goo Goo Dolls, primera pista de baile

La preeclampsia existe desde hace aproximadamente 5.000 años, pero aún no existe cura: ¿por qué se la llama la “enfermedad de las teorías”?

No hay nada divertido en el espectáculo de payasos de Trump