EvolutionaryScale lanza ESM Cambrian: una nueva familia de modelos de lenguaje de proteínas que se centra en la creación de representaciones de la biología subyacente de las proteínas

Comprender las secuencias de proteínas y sus funciones siempre ha sido un aspecto desafiante de la investigación de proteínas. Las proteínas, a menudo descritas como los componentes básicos de la vida, están formadas por secuencias largas y complejas que determinan sus funciones en los sistemas biológicos. A pesar de los avances en biología computacional, dar sentido a estas secuencias de manera significativa sigue siendo una tarea difícil. Los métodos tradicionales para analizar proteínas requieren mucho tiempo y son costosos. Incluso con los avances tecnológicos recientes, los investigadores luchan por mapear la gran diversidad de estructuras de proteínas y sus variaciones funcionales que se encuentran en la naturaleza. Esta brecha entre los datos disponibles y los conocimientos prácticos sigue siendo un obstáculo importante para desarrollar nuevas terapias, soluciones de bioingeniería y abordar desafíos más amplios en las ciencias de la salud y el medio ambiente. La necesidad de una herramienta integral para analizar proteínas a una escala sin precedentes nunca ha sido más urgente.

EvolutionaryScale ha lanzado ESM Cambrianun nuevo modelo de lenguaje entrenado en secuencias de proteínas a una escala que captura la diversidad de la vida en la Tierra. ESM Cambrian representa un gran paso adelante en bioinformática, ya que utiliza técnicas de aprendizaje automático para comprender mejor las estructuras y funciones de las proteínas. El modelo ha sido entrenado en millones de secuencias de proteínas, que cubren una inmensa gama de biodiversidad, para descubrir los patrones y relaciones subyacentes en las proteínas. Así como los grandes modelos de lenguaje han transformado nuestra comprensión del lenguaje humano, ESM Cambrian se centra en secuencias de proteínas que son fundamentales para los procesos biológicos. Su objetivo es ser un modelo versátil capaz de predecir la estructura, la función y facilitar nuevos descubrimientos entre diferentes especies y familias de proteínas.

Detalles técnicos

La base técnica de ESM Cambrian es tan impresionante como sus objetivos. EvolutionaryScale ha lanzado diferentes versiones del modelo, incluidas ESM C 300M y ESM C 600M, con pesas disponibles abiertamente para la comunidad de investigación. Estos modelos logran un equilibrio entre escala y practicidad, lo que permite a los científicos hacer predicciones poderosas sin los desafíos de infraestructura que conllevan modelos muy grandes. La variante más grande, ESM C 6B, está disponible en EvolutionaryScale Forge para investigación académica y en AWS Sagemaker para uso comercial, con planes de lanzarse pronto en NVIDIA BioNemo. Estas plataformas facilitan el acceso a esta herramienta a los usuarios tanto en entornos académicos como industriales.

El modelo, basado en la arquitectura transformadora, utiliza mecanismos de autoatención para identificar relaciones complejas dentro de secuencias de proteínas, lo que lo hace muy adecuado para tareas como predecir el plegamiento de proteínas o descubrir nuevas funciones. Uno de los principales beneficios de ESM Cambrian es su capacidad para generalizar el conocimiento sobre diferentes proteínas, lo que podría acelerar el descubrimiento de nuevos fármacos y aplicaciones de biología sintética.

ESM Cambrian fue entrenado en dos etapas para lograr su alto rendimiento. En la Etapa 1, para el primer millón de pasos de entrenamiento, el modelo utilizó una longitud de contexto de 512, y los datos metagenómicos representaron el 64% del conjunto de datos de entrenamiento. En la Etapa 2, el modelo se sometió a 500.000 pasos de entrenamiento adicionales, durante los cuales la duración del contexto se incrementó a 2048 y la proporción de datos metagenómicos se redujo al 37,5%. Este enfoque por etapas permitió que el modelo aprendiera eficazmente de un conjunto diverso de secuencias de proteínas, mejorando su capacidad para generalizar entre diferentes proteínas.

Primeros resultados y conocimientos

Las primeras pruebas de ESM Cambrian han mostrado resultados prometedores. La capacidad del modelo para predecir la estructura y función de secuencias de proteínas es comparable a los métodos experimentales tradicionales y ofrece ahorros significativos tanto en tiempo como en costes. Las evaluaciones se realizaron utilizando la metodología de Rao et al. medir el aprendizaje no supervisado de la estructura terciaria de proteínas a través de mapas de contacto. Se utilizó una regresión logística para identificar contactos y se evaluó la precisión de los contactos L superiores (P@L) para proteínas de longitud L, con una separación de secuencia de 6 o más residuos. El P@L promedio se calculó en un conjunto de estructuras proteicas temporalmente retenidas (con una fecha límite del 1 de mayo de 2023) para las leyes de escalamiento y en el punto de referencia CASP15 para la evaluación del desempeño. Los conocimientos iniciales sugieren que ESM Cambrian funciona bien en la generalización de familias de proteínas poco estudiadas, lo que ayuda a los investigadores a descubrir relaciones ocultas en secuencias que de otro modo serían difíciles de analizar. Su precisión predictiva también abre nuevas posibilidades en la ingeniería enzimática, donde es crucial comprender los matices sutiles de la actividad de las proteínas.

La disponibilidad de ESM Cambrian en plataformas como AWS Sagemaker y NVIDIA BioNemo facilitará a los usuarios comerciales la integración de herramientas de aprendizaje automático en sus flujos de trabajo existentes. La decisión de EvolutionaryScale de lanzar pesas abiertas para ESM C 300M y ESM C 600M refleja un compromiso con la ciencia abierta, fomentando la colaboración para comprender mejor los fundamentos de la vida en la Tierra.

Conclusión

El lanzamiento de ESM Cambrian por EvolutionaryScale marca un hito importante en la biología computacional y la ciencia de las proteínas. Al proporcionar un modelo que puede analizar secuencias de proteínas a una escala que captura la diversidad de la biodiversidad de la Tierra, EvolutionaryScale ha demostrado el potencial de aplicar la IA en la investigación biológica y ha abierto numerosas oportunidades para acelerar el descubrimiento y la innovación. ESM Cambrian desempeñará un papel clave en la ingeniería de proteínas, el descubrimiento de fármacos y la obtención de una comprensión más profunda de los sistemas biológicos. A medida que la comunidad científica comienza a explorar las aplicaciones de este modelo, queda claro que el futuro de la investigación de proteínas está evolucionando, con herramientas como ESM Cambrian a la cabeza.


Verificar el Detalles y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 [Must Attend Webinar]: ‘Transformar pruebas de concepto en aplicaciones y agentes de IA listos para producción’ (Promovido)


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.