El estudio de la evolución por selección natural a nivel molecular ha avanzado significativamente con la llegada de las tecnologías genómicas. Tradicionalmente, los investigadores se han centrado en rasgos observables como el tiempo de floración o el crecimiento. Sin embargo, la expresión genética proporciona un fenotipo intermedio que conecta los datos genómicos con estos rasgos macroscópicos, ofreciendo una comprensión más profunda de las presiones de selección. En un estudio reciente con Ivyleaf Morning Glory (*Ipomoea hederacea*), los investigadores utilizaron la secuenciación de ARN para analizar la expresión genética en condiciones naturales de campo. El desafío de tratar con datos de alta dimensión y de tamaño de muestra pequeño, típicos de la transcriptómica, se abordó mediante métodos de aprendizaje automático. Estos métodos, conocidos por su capacidad para manejar datos complejos y multivariados, revelaron que los genes relacionados con la fotosíntesis, la respuesta al estrés y la respuesta a la luz eran cruciales para predecir la aptitud física. Esto demuestra el potencial de los modelos ML para descubrir importantes procesos biológicos y genes bajo selección en entornos naturales, superando las limitaciones de los enfoques estadísticos tradicionales.
Además, los intrincados patrones de uso de codones, que varían significativamente entre especies y dentro de ellas, están influenciados por la selección evolutiva. Un estudio exploró si la IA podía predecir secuencias de codones a partir de secuencias de aminoácidos determinadas en diferentes organismos, incluidas levaduras y bacterias. Los investigadores utilizaron modelos avanzados de IA, específicamente la arquitectura basada en transformadores mBART, para capturar dependencias complejas en el uso de codones que los métodos simples basados en frecuencia no logran detectar. Sus hallazgos indican que la IA puede aprender y predecir eficazmente estos patrones de codones, particularmente en genes altamente expresados y proteínas más largas. Esto sugiere que la elección de codones está influenciada por presiones evolutivas relacionadas con la expresión y el plegamiento de proteínas. Este enfoque mejora nuestra comprensión del sesgo de codones y su impacto en la síntesis de proteínas y proporciona una nueva herramienta para optimizar el uso de codones en aplicaciones de biotecnología y biología sintética.
Resumen de métodos:
El estudio utilizó secuencias codificantes NCBI de S. cerevisiae, S. pombe, E. coli y B. subtilis, divididas en conjuntos de entrenamiento, validación y prueba. CD-HIT agrupó secuencias de aminoácidos, asegurando que los grupos permanecieran dentro de conjuntos individuales. BLAST identificó secuencias similares y niveles de expresión de proteínas categorizadas. Los modelos de predicción de codones incluían métodos basados en frecuencia y modelos mBART con diferentes configuraciones. El protocolo de entrenamiento incluyó entrenamiento previo y ajuste con hiperparámetros específicos. Se aplicaron ventanas de tamaño fijo durante la inferencia y las predicciones se promediaron entre ventanas: las métricas de precisión y perplejidad evaluaron el rendimiento del modelo frente a secuencias de codones verdaderas.
Entrenamiento y Evaluación de Modelos mBART:
Se entrenaron modelos mBART para predecir secuencias de codones a partir de secuencias de aminoácidos mediante enmascaramiento e imitación. El enmascaramiento implicó predecir codones a partir de la secuencia de aminoácidos únicamente mientras se imitaban los codones predichos basados en los de una proteína ortóloga de un organismo diferente. El enfoque de imitación se basa en la hipótesis de que los codones pueden influir en la tasa de alargamiento de la traducción, que es fundamental para el plegamiento cotraduccional de proteínas. Los conjuntos de datos de entrenamiento consistieron en proteínas de S. cerevisiae, S. pombe, E. coli y B. subtilis, divididas en conjuntos de entrenamiento, validación y prueba sin superposición de secuencias de aminoácidos entre los conjuntos de entrenamiento y prueba. La evaluación de los modelos mostró que los modelos mBART generalmente superaron a las líneas de base basadas en frecuencia, especialmente en la predicción de codones para proteínas con niveles de expresión más altos. Esto sugiere que mBART puede aprender y utilizar interacciones de largo alcance entre codones de manera más efectiva.
Precisión de las predicciones de enmascaramiento e imitación:
Las predicciones del modo de enmascaramiento de los modelos mBART mostraron una precisión superior en comparación con los métodos basados en frecuencia, lo que demuestra la capacidad de capturar patrones complejos en el uso de codones. Se probaron diferentes tamaños de ventana, siendo el modelo de ventana de 30 codones el que tuvo el mejor rendimiento. Aunque las predicciones en modo de imitación fueron ligeramente más precisas que las predicciones en modo de enmascaramiento, aún mostraron potencial, especialmente en organismos eucariotas y para segmentos ortólogos altamente conservados. El rendimiento de los modelos mBART no se benefició significativamente de las similitudes de secuencia entre los conjuntos de entrenamiento y prueba, lo que indica un aprendizaje sólido de los patrones de uso de codones. Además, la precisión de los modelos varió entre proteínas con diferentes niveles de expresión y funciones moleculares, con mejoras notables para las proteínas involucradas en funciones ribosómicas, unión de ácidos nucleicos y actividades catalíticas en S. cerevisiae y E. coli.
Métodos:
Se recogió tejido de Ipomoea hederacea, una enredadera anual distribuida por el este de Estados Unidos. Un experimento de campo implicó plantar 100 individuos de 56 poblaciones en un invernadero y trasplantarlos a un campo. Un año después, se analizaron muestras de suelo en busca de metales pesados. Se recogió tejido de la hoja después de 71 días y se extrajo y secuenció el ARNm. El procesamiento de datos incluyó alinear lecturas con el genoma de Ipomoea nil, transformar recuentos de genes y filtrar genes de baja expresión. Los métodos analíticos implicaron regresión de componentes principales y modelado supervisado utilizando redes neuronales y aumento de árbol de gradiente. Se identificaron genes importantes y se realizó un análisis de enriquecimiento del término GO utilizando Blast2Go y goseq.
Información sobre la predicción de codones y el análisis de expresión genética impulsados por IA:
Se han aprovechado modelos avanzados de IA, como mBART, para predecir el uso de codones en varios organismos y analizar el impacto de la expresión genética en la aptitud física. Estos modelos resaltan correlaciones significativas entre el uso de codones y la expresión de proteínas, la conservación evolutiva y los atributos funcionales. Los genes de alta expresión y las proteínas conservadas exhiben patrones de codones más predecibles. Además, los enfoques de aprendizaje automático identifican eficazmente patrones de expresión genética relacionados con la aptitud física, particularmente en genes asociados con la respuesta al estrés y el desarrollo reproductivo. Esto subraya la utilidad de la IA para decodificar secuencias biológicas complejas y mejorar nuestra comprensión de la biología evolutiva y la regulación genética.
Fuentes:
A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.