Anthrogen presenta Odyssey: un modelo de lenguaje de proteínas con parámetros 102B que reemplaza la atención con consenso y entrena con difusión discreta

Anthrogen ha presentado Odyssey, una familia de modelos de lenguaje de proteínas para la generación de secuencias y estructuras, edición de proteínas y diseño condicional. Los modelos de producción varían entre 1.2B y 102B de parámetros. El equipo de investigación de Anthrogen posiciona a Odyssey como un modelo multimodal de frontera para cargas de trabajo de diseño de proteínas reales y señala que una API se encuentra en acceso temprano.

https://www.biorxiv.org/content/10.1101/2025.10.15.682677v1.full.pdf

¿A qué problema se dirige Odyssey?

El diseño de proteínas combina la secuencia de aminoácidos con la estructura 3D y el contexto funcional. Muchos modelos anteriores adoptan la atención personal, que mezcla información en toda la secuencia a la vez. Las proteínas siguen restricciones geométricas, por lo que los efectos de largo alcance viajan a través de vecindarios locales en 3D. Anthrogen enmarca esto como un problema de localidad y propone una nueva regla de propagación, llamada Consenso, que se adapta mejor al dominio.

https://www.biorxiv.org/content/10.1101/2025.10.15.682677v1.full.pdf

Representación de entrada y tokenización.

Odyssey es multimodal. Incorpora tokens de secuencia, tokens de estructura y señales funcionales ligeras, y luego los fusiona en una representación compartida. Para la estructura, Odyssey utiliza un cuantificador escalar finito, FSQ, para convertir la geometría 3D en tokens compactos. Piense en FSQ como un alfabeto para formas que permite al modelo leer la estructura tan fácilmente como la secuencia. Las señales funcionales pueden incluir etiquetas de dominio, sugerencias de estructura secundaria, etiquetas de grupos ortólogos o descriptores de texto breves. Esta vista conjunta le da al modelo acceso a patrones de secuencia locales y relaciones geométricas de largo alcance en un único espacio latente.

https://www.biorxiv.org/content/10.1101/2025.10.15.682677v1.full.pdf

Cambio de columna vertebral, consenso en lugar de atención propia

El consenso reemplaza la autoatención global con actualizaciones iterativas y conscientes de la localidad en un contacto disperso o un gráfico de secuencia. Cada capa alienta a los vecindarios cercanos a ponerse de acuerdo primero y luego extiende ese acuerdo a lo largo de la cadena y el gráfico de contactos. Este cambio altera el cálculo. La atención personal escala como O(L²) con una longitud de secuencia L. Anthrogen informa que Consensus escala como O(L), lo que mantiene asequibles las secuencias largas y las construcciones multidominio. La compañía también informa una mayor solidez en las opciones de tasa de aprendizaje a escalas más grandes, lo que reduce las ejecuciones y reinicios frágiles.

https://www.biorxiv.org/content/10.1101/2025.10.15.682677v1.full.pdf

Objetivo de formación y generación, difusión discreta.

Odyssey entrena con difusión discreta en fichas de secuencia y estructura. El proceso de avance aplica un ruido de enmascaramiento que imita la mutación. El eliminador de ruido en el tiempo inverso aprende a reconstruir secuencias y coordenadas consistentes que funcionan juntas. En inferencia, el mismo proceso inverso admite la generación y edición condicional. Puede sostener un andamio, arreglar un motivo, enmascarar un bucle, agregar una etiqueta funcional y luego dejar que el modelo complete el resto mientras mantiene la secuencia y la estructura sincronizadas.

Los informes de Anthrogen coincidieron con comparaciones en las que la difusión supera al modelado de lenguaje enmascarado durante la evaluación. La página señala menores perplejidades del entrenamiento para la difusión versus el enmascaramiento complejo, y menores perplejidades del entrenamiento versus el enmascaramiento simple. En la validación, los modelos de difusión superan a sus homólogos enmascarados, mientras que un modelo enmascarado de 1.200 millones tiende a adaptarse a su propio programa de enmascaramiento. La compañía sostiene que la difusión modela la distribución conjunta de la proteína completa, que se alinea con el codiseño de secuencia y estructura.

https://www.biorxiv.org/content/10.1101/2025.10.15.682677v1.full.pdf

Conclusiones clave

Odyssey es una familia de modelos de proteínas multimodal que fusiona secuencia, estructura y contexto funcional, con modelos de producción en los parámetros 1.2B, 8B y 102B. El consenso reemplaza la autoatención con una propagación consciente de la localidad que escala como O(L) y muestra un comportamiento sólido de tasa de aprendizaje a escalas mayores. FSQ convierte coordenadas 3D en tokens de estructura discreta para secuencias conjuntas y modelado de estructuras. La difusión discreta entrena un eliminador de ruido en tiempo inverso y, en comparaciones coincidentes, supera al modelado de lenguaje enmascarado durante la evaluación. Anthrogen reporta un mejor rendimiento con aproximadamente 10 veces menos datos que los modelos de la competencia, lo que aborda la escasez de datos en el modelado de proteínas.

Odyssey es un modelo impresionante porque pone en práctica el modelado de estructuras y secuencias conjuntas con FSQ, Consensus y difusión discreta, lo que permite el diseño y la edición condicionales bajo restricciones prácticas. Odyssey escala a parámetros 102B con complejidad O(L) para Consensus, lo que reduce el costo de las proteínas largas y mejora la solidez de la tasa de aprendizaje. Anthrogen informa que la difusión supera al modelado de lenguaje enmascarado en evaluaciones coincidentes, lo que se alinea con los objetivos de codiseño. El sistema tiene como objetivo un diseño multiobjetivo, incluida la potencia, la especificidad, la estabilidad y la capacidad de fabricación. El equipo de investigación enfatiza la eficiencia de los datos cerca de 10 veces en comparación con los modelos de la competencia, lo cual es importante en dominios con escasos datos etiquetados.

Consulte el documento y los detalles técnicos. No dude en consultar nuestra página de GitHub para tutoriales, códigos y cuadernos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

🙌 Siga MARKTECHPOST: agréguenos como fuente preferida en Google.