¿Qué tan cerca puede llegar un modelo abierto de la precisión del nivel AlphaFold3 cuando coincide con los datos de entrenamiento, la escala del modelo y el presupuesto de inferencia? ByteDance ha presentado Protenix-v1, una reproducción completa de AlphaFold3 (AF3) para la predicción de estructuras biomoleculares, lanzada con código y parámetros de modelo bajo Apache 2.0. El modelo apunta al rendimiento de nivel AF3 en estructuras de proteínas, ADN, ARN y ligandos, al tiempo que mantiene toda la pila abierta y extensible para la investigación y la producción.
La versión principal también incluye PXMeter v1.0.0, un conjunto de herramientas de evaluación y un conjunto de conjuntos de datos para realizar evaluaciones comparativas transparentes en más de 6k complejos con subconjuntos de tiempo dividido y específicos de dominio.
¿Qué es Protenix-v1?
Protenix se describe como ‘Protenix: Protein + X’, un modelo básico para la predicción de estructuras biomoleculares de alta precisión. Predice estructuras 3D totalmente atómicas para complejos que pueden incluir:
Proteínas Ácidos nucleicos (ADN y ARN) Ligandos de moléculas pequeñas
El equipo de investigación define a Protenix como una reproducción integral de AF3. Vuelve a implementar la arquitectura de difusión estilo AF3 para complejos de todos los átomos y la expone en una base de código PyTorch entrenable.
El proyecto se lanza como una pila completa:
Código de entrenamiento e inferencia Pesos de modelos previamente entrenados Canalizaciones de datos y MSA Un servidor web Protenix basado en navegador para uso interactivo
Rendimiento de nivel AF3 bajo restricciones coincidentes
Según el equipo de investigación, Protenix-v1 (protenix_base_default_v1.0.0) es “el primer modelo de código abierto que supera a AlphaFold3 en diversos conjuntos de referencia y al mismo tiempo se adhiere al mismo límite de datos de entrenamiento, escala de modelo y presupuesto de inferencia que AlphaFold3”.
Las limitaciones importantes son:
Límite de datos de entrenamiento: 30 de septiembre de 2021, alineado con el límite de PDB de AF3. Escala del modelo: el propio Protenix-v1 tiene 368 millones de parámetros; La escala AF3 coincide pero no se divulga. Presupuesto de inferencia: las comparaciones utilizan presupuestos de muestreo y restricciones de tiempo de ejecución similares.
En objetivos desafiantes, como los complejos antígeno-anticuerpo, aumentar el número de candidatos muestreados de varios a cientos produce mejoras log-lineales consistentes en la precisión. Esto proporciona un comportamiento de escalado de tiempo de inferencia claro y documentado en lugar de un único punto de operación fijo.
PXMeter v1.0.0: Evaluación para complejos 6k+
Para respaldar estas afirmaciones, el equipo de investigación lanzó PXMeter v1.0.0, un conjunto de herramientas de código abierto para puntos de referencia de predicción de estructuras reproducibles.
PXMeter proporciona:
Un conjunto de datos de referencia curado manualmente, con artefactos no biológicos y entradas problemáticas eliminadas. Subconjuntos de dominios y divisiones de tiempo específicos (por ejemplo, complejos anticuerpo-antígeno, proteína-ARN, ligandos). Un marco de evaluación unificado que calcula métricas como LDDT y DockQ complejos en todos los modelos.
El artículo de investigación asociado de PXMeter, ‘Revisiting Structure Prediction Benchmarks with PXMeter’, evalúa Protenix, AlphaFold3, Boltz-1 y Chai-1 en las mismas tareas seleccionadas y muestra cómo los diferentes diseños de conjuntos de datos afectan la clasificación del modelo y el rendimiento percibido.
¿Cómo encaja Protenix en el conjunto más amplio?
Protenix forma parte de un pequeño ecosistema de proyectos relacionados:
PXDesign: una suite de diseño de carpetas construida sobre el modelo básico de Protenix. Informa tasas de éxito experimentales del 20 al 73 % y un éxito entre 2 y 6 veces mayor que métodos como AlphaProteo y RFdiffusion, y se puede acceder a él a través del servidor Protenix. Protenix-Dock: un marco clásico de acoplamiento proteína-ligando que utiliza funciones de puntuación empíricas en lugar de redes profundas, ajustado para tareas de acoplamiento rígido. Protenix-Mini y trabajos posteriores como Protenix-Mini+: variantes livianas que reducen el costo de inferencia mediante compresión arquitectónica y muestreadores de difusión de pocos pasos, al tiempo que mantienen la precisión dentro de un pequeño porcentaje del modelo completo en puntos de referencia estándar.
Juntos, estos componentes cubren la predicción, el acoplamiento y el diseño de estructuras, y comparten interfaces y formatos, lo que simplifica la integración en tuberías posteriores.
Conclusiones clave
Modelo completamente abierto de clase AF3: Protenix-v1 es un predictor de estructura biomolecular de átomos de estilo AF3 con código abierto y pesos bajo Apache 2.0, dirigido a proteínas, ADN, ARN y ligandos. Estricta alineación de AF3 para una comparación justa: Protenix-v1 coincide con AlphaFold3 en ejes críticos: límite de datos de entrenamiento (30 de septiembre de 2021), clase de escala del modelo y presupuesto de inferencia comparable, lo que permite afirmaciones de rendimiento justas a nivel de AF3. Evaluación comparativa transparente con PXMeter v1.0.0: PXMeter proporciona un conjunto de pruebas comparativas seleccionadas con más de 6.000 complejos con subconjuntos específicos de dominio y división de tiempo, además de métricas unificadas (por ejemplo, LDDT complejo, DockQ) para una evaluación reproducible. Comportamiento de escalado de tiempo de inferencia verificado: Protenix-v1 muestra ganancias de precisión log-lineal a medida que aumenta el número de candidatos muestreados, lo que brinda una compensación documentada entre latencia y precisión en lugar de un único punto operativo fijo.
Consulte el repositorio y pruébelo aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.