EvolutionaryScale presenta ESM3: un modelo de lenguaje generativo multimodal de frontera que razona sobre la secuencia, estructura y función de las proteínas

Durante más de tres mil millones de años, la evolución natural ha dado forma intrincada a las proteínas que vemos hoy. A través de innumerables mutaciones aleatorias y presiones selectivas, la naturaleza ha creado estas proteínas, reflejando los profundos principios biológicos que gobiernan la vida. La secuenciación genética moderna desentraña la inmensa diversidad de estas secuencias y estructuras de proteínas, revelando patrones moldeados por fuerzas evolutivas. Los investigadores utilizan cada vez más modelos de lenguaje de gran tamaño para decodificar este “lenguaje de proteínas”, y descubren que estos modelos, incluso sin una formación específica en funciones biológicas, pueden aprender de forma natural a representar estructuras y funciones de proteínas, y sus capacidades se expanden significativamente a medida que aumentan en complejidad y datos.

Investigadores de Evolutionary Scale PBC, Arc Institute y la Universidad de California han desarrollado ESM3, un modelo de lenguaje generativo avanzado para proteínas. ESM3 puede simular procesos evolutivos para crear proteínas funcionales muy diferentes de las conocidas. Integra secuencia, estructura y función para generar proteínas siguiendo indicaciones complejas. En particular, ESM3 generó una nueva proteína fluorescente, esmGFP, que es un 58% diferente de cualquier proteína fluorescente conocida, un grado de diferencia comparable a 500 millones de años de evolución natural. Este avance demuestra el potencial de ESM3 en ingeniería de proteínas, ofreciendo soluciones creativas a desafíos biológicos.

ESM3 es un sofisticado modelo de lenguaje generativo diseñado para comprender y predecir la secuencia, estructura y función de las proteínas utilizando datos tokenizados. Emplea un enfoque de modelado de lenguaje enmascarado para predecir porciones enmascaradas de datos de proteínas en varias tasas de enmascaramiento. ESM3 integra secuencia, estructura y función en un espacio latente unificado y procesa estas modalidades a través de bloques transformadores con atención geométrica. ESM3, entrenado en vastos conjuntos de datos, que incluyen 2,78 mil millones de proteínas y 236 millones de estructuras, escala hasta 98 ​​mil millones de parámetros. Su método de tokenización captura de manera eficiente detalles atómicos, lo que permite una alta precisión en la generación y reconstrucción de estructuras de proteínas.

ESM3, un modelo de lenguaje con hasta 98 ​​mil millones de parámetros, predice y genera eficazmente secuencias, estructuras y funciones de proteínas. Procesa estos aspectos a través de bloques transformadores con atención geométrica, entrenándose en un vasto conjunto de datos de proteínas naturales y sintéticas. Las capacidades generativas de ESM3 le permiten crear proteínas diversas y de alta calidad que difieren significativamente de las proteínas naturales conocidas. Se destaca en seguir indicaciones de diversas entradas, como secuencias o detalles estructurales, y puede innovar dentro de estas limitaciones, produciendo nuevos diseños de proteínas. Esta versatilidad facilita el diseño y la exploración de proteínas avanzados y programables más allá de los patrones evolutivos naturales.

La ampliación y el ajuste de los modelos ESM3 mejoran significativamente su capacidad para generar proteínas que se alinean con indicaciones complejas, como la coordinación atómica específica y motivos estructurales. Aunque los modelos base, entrenados en extensos conjuntos de datos de proteínas, funcionan bien, el ajuste con datos de preferencias (emparejando resultados de alta y baja calidad) revela capacidades latentes. Esta alineación, especialmente en modelos más grandes, duplica la tasa de éxito en la generación de estructuras proteicas precisas y aumenta la diversidad de soluciones exitosas. El proceso demuestra que los modelos más grandes tienen una mayor capacidad inherente para adaptarse a tareas desafiantes, mostrando un rendimiento mejorado cuando se alinean con objetivos específicos.

ESM3, un modelo de lenguaje entrenado en secuencias de proteínas, generó una proteína verde fluorescente (GFP) con una similitud mínima con las existentes. Al proporcionar al modelo residuos y estructuras críticos necesarios para el funcionamiento de GFP, ESM3 creó miles de diseños potenciales. A partir de estos, se identificó una proteína fluorescente única, esmGFP, que difería significativamente de las proteínas conocidas y exhibía una fluorescencia natural similar a la GFP. Este proceso refleja los caminos evolutivos, lo que sugiere que ESM3 puede explorar espacios proteicos que la evolución no ha explorado, simulando efectivamente millones de años de potencial evolutivo en la generación de nuevas proteínas funcionales.


Revisar la Papel y Detalles. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.

Únete a nuestro Canal de telegramas y LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de más de 45.000 ml


🚀 Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto, Gretel Navigator, ¡ahora disponible de forma generalizada! [Advertisement]


Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.