Codificación jerárquica para el modelado del lenguaje de ARNm (HELM): una novedosa estrategia de preentrenamiento que incorpora la estructura jerárquica a nivel de codones en el entrenamiento del modelo de lenguaje

El ARN mensajero (ARNm) desempeña un papel crucial en la síntesis de proteínas, traduciendo información genética en proteínas mediante un proceso que involucra secuencias de nucleótidos llamados codones. Sin embargo, los modelos de lenguaje actuales utilizados para secuencias biológicas, especialmente ARNm, no logran capturar la estructura jerárquica de los codones de ARNm. Esta limitación conduce a un rendimiento subóptimo al predecir propiedades o generar diversas secuencias de ARNm. El modelado de ARNm es un desafío singular debido a su relación de muchos a uno entre los codones y los aminoácidos que codifican, ya que múltiples codones pueden codificar el mismo aminoácido pero varían en sus propiedades biológicas. Esta estructura jerárquica de codones sinónimos es crucial para las funciones funcionales del ARNm, particularmente en terapias como vacunas y terapias génicas.

Investigadores de Johnson & Johnson y la Universidad de Florida Central proponen un nuevo enfoque para mejorar el modelado del lenguaje de ARNm llamado Codificación jerárquica para el modelado del lenguaje de ARNm (HELM). HELM incorpora las relaciones jerárquicas de codones en el proceso de formación del modelo de lenguaje. Esto se logra modulando la función de pérdida basada en la sinonimia de codones, lo que alinea efectivamente el entrenamiento con la realidad biológica de las secuencias de ARNm. Específicamente, HELM modula la magnitud del error en su función de pérdida dependiendo de si los errores involucran codones sinónimos (considerados menos significativos) o codones que conducen a diferentes aminoácidos (considerados más significativos). Los investigadores evalúan HELM frente a modelos de ARNm existentes en diversas tareas, incluida la predicción de propiedades de ARNm y la anotación de regiones de anticuerpos, y descubren que mejora significativamente el rendimiento, lo que demuestra una precisión promedio de aproximadamente un 8% mejor en comparación con los modelos existentes.

El núcleo de HELM radica en su enfoque de codificación jerárquica, que integra la estructura de codones directamente en el entrenamiento del modelo de lenguaje. Esto implica el uso de una pérdida de entropía cruzada jerárquica (HXE), donde los codones de ARNm se tratan en función de sus posiciones en una jerarquía similar a un árbol que representa sus relaciones biológicas. La jerarquía comienza con un nodo raíz que representa todos los codones, ramificándose en codones codificantes y no codificantes, con una categorización adicional basada en funciones biológicas como señales de “inicio” y “parada” o aminoácidos específicos. Durante el entrenamiento previo, HELM utiliza técnicas de modelado de lenguaje enmascarado (MLM) y de modelado de lenguaje causal (CLM), mejorando el entrenamiento ponderando los errores en proporción a la posición de los codones dentro de esta estructura jerárquica. Esto garantiza que las sustituciones de codones sinónimos sean menos penalizadas, lo que fomenta una comprensión matizada de las relaciones a nivel de codones. Además, HELM conserva la compatibilidad con arquitecturas de modelos de lenguaje común y se puede aplicar sin problemas sin cambios importantes en los canales de capacitación existentes.

HELM se evaluó en múltiples conjuntos de datos, incluido el ARNm relacionado con anticuerpos y secuencias generales de ARNm. En comparación con los modelos de lenguaje no jerárquicos y los modelos básicos de ARN de última generación, HELM demostró mejoras constantes. En promedio, superó a los métodos estándar de preentrenamiento en un 8 % en tareas predictivas en seis conjuntos de datos diversos. Por ejemplo, en la anotación de secuencias de ARNm de anticuerpos, HELM logró una mejora de la precisión de alrededor del 5 %, lo que indica su capacidad para capturar estructuras biológicamente relevantes mejor que los modelos tradicionales. El enfoque jerárquico de HELM también mostró una agrupación más fuerte de secuencias sinónimas, lo que indica que el modelo captura las relaciones biológicas con mayor precisión. Más allá de la clasificación, HELM también fue evaluado por sus capacidades generativas, lo que demuestra que puede generar diversas secuencias de ARNm alineadas con mayor precisión con distribuciones de datos reales en comparación con líneas de base no jerárquicas. Se utilizó la distancia biológica de Frechet (FBD) para medir qué tan bien las secuencias generadas coincidían con los datos biológicos reales, y HELM mostró consistentemente puntuaciones más bajas de FBD, lo que indica una alineación más cercana con las secuencias biológicas reales.

Los investigadores concluyen que HELM representa un avance significativo en el modelado de secuencias de ARNm, particularmente en su capacidad para capturar las jerarquías biológicas inherentes al ARNm. Al incorporar estas relaciones directamente en el proceso de capacitación, HELM logra resultados superiores tanto en tareas predictivas como generativas, al tiempo que requiere modificaciones mínimas en las arquitecturas de modelos estándar. El trabajo futuro podría explorar métodos más avanzados, como entrenar HELM en un espacio hiperbólico para capturar mejor las relaciones jerárquicas que el espacio euclidiano no puede modelar fácilmente. En general, HELM allana el camino para un mejor análisis y aplicación del ARNm, con implicaciones prometedoras para áreas como el desarrollo terapéutico y la biología sintética.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

[Trending] LLMWare presenta Model Depot: una amplia colección de modelos de lenguaje pequeño (SLM) para PC Intel


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.