El muestreo sin datos ahora es escalable: Meta AI libera el muestreo adjunto para el modelado generativo impulsado por las recompensas

La escasez de datos en el modelado generativo

Los modelos generativos tradicionalmente dependen de conjuntos de datos grandes de alta calidad para producir muestras que replicen la distribución de datos subyacente. Sin embargo, en campos como el modelado molecular o la inferencia basada en la física, adquirir dichos datos puede ser computacionalmente inviable o incluso imposible. En lugar de datos etiquetados, solo una recompensa escalar, derivada típicamente de una función de energía compleja, está disponible para juzgar la calidad de las muestras generadas. Esto presenta un desafío significativo: ¿cómo se puede entrenar modelos generativos de manera efectiva sin supervisión directa de los datos?

Meta AI presenta un muestreo adjunto, un nuevo algoritmo de aprendizaje basado en recompensas escalar

Meta AI aborda este desafío con Muestreo adjuntoun nuevo algoritmo de aprendizaje diseñado para capacitar modelos generativos que utilizan solo señales de recompensa escalar. Construido en el marco teórico del control óptimo estocástico (SOC), el muestreo adjunto reformula el proceso de capacitación como una tarea de optimización sobre un proceso de difusión controlado. A diferencia de los modelos generativos estándar, no requiere datos explícitos. En cambio, aprende a generar muestras de alta calidad refinando iterativamente usando una función de recompensa, a menudo derivada de modelos de energía física o química.

El muestreo adjunto sobresale en escenarios donde solo se puede acceder a una función de energía no anormalizada. Produce muestras que se alinean con la distribución objetivo definida por esta energía, evitando la necesidad de métodos correctivos como el muestreo de importancia o MCMC, que son computacionalmente intensivos.

Fuente: https://arxiv.org/abs/2504.11713

Detalle técnico

La base del muestreo adjunto es una ecuación diferencial estocástica (SDE) que modela cómo evolucionan las trayectorias de muestra. El algoritmo aprende una deriva de control u (x, t) u (x, t) u (x, t) de modo que el estado final de estas trayectorias se aproxima a una distribución deseada (por ejemplo, Boltzmann). Una innovación clave es su uso de Coincidencia adjunto recíproca (RAM)—Un función de pérdida que permite actualizaciones basadas en gradientes utilizando solo los estados iniciales y finales de las trayectorias de muestra. Esto evita la necesidad de retroceso a través de toda la ruta de difusión, mejorando en gran medida la eficiencia computacional.

Al muestrear desde un proceso base y acondicionamiento conocido en estados terminales, el muestreo adjunto construye un tampón de reproducción de muestras y gradientes, lo que permite múltiples pasos de optimización por muestra. Este método de entrenamiento en la política proporciona una escalabilidad inigualable por los enfoques anteriores, lo que lo hace adecuado para problemas de alta dimensión como la generación de conformadores moleculares.

Además, el muestreo adjunto admite simetrías geométricas y condiciones límite periódicas, lo que permite a los modelos respetar las invariadas moleculares como la rotación, la traducción y la torsión. Estas características son cruciales para tareas generativas físicamente significativas en química y física.

Insights de rendimiento y resultados de referencia

El muestreo adjunto logra los resultados de última generación en tareas sintéticas y del mundo real. En puntos de referencia sintéticos como los potenciales de doble pozo (DW-4), Lennard-Jones (LJ-13 y LJ-55), supera significativamente las líneas de base como DDS y PI, especialmente en eficiencia energética. Por ejemplo, donde DDS y PI requieren 1000 evaluaciones por actualización de gradiente, el muestreo adjunto solo usa tres, con un rendimiento similar o mejor en la distancia de WasSerstein y el tamaño de muestra efectivo (ESS).

En un entorno práctico, el algoritmo se evaluó en la generación de conformadores moleculares a gran escala utilizando el modelo de energía ESEN capacitado en el conjunto de datos de majas de especias. El muestreo adjunto, especialmente su variante cartesiana con previación previa, logró hasta un 96.4% de recuperación y 0.60 Å media RMSD, superando el RDKIT ETKDG, una línea de base de química ampliamente utilizada, con todas las métricas. El método se generaliza bien al conjunto de datos GEOM-DRUGS, que muestra mejoras sustanciales en el recuerdo al tiempo que mantiene la precisión competitiva.

La capacidad del algoritmo para explorar el espacio de configuración ampliamente, ayudado por su inicialización estocástica y aprendizaje basado en recompensas, da como resultado una mayor diversidad conformadora, crítica para el descubrimiento de fármacos y el diseño molecular.

Conclusión: una ruta escalable hacia adelante para los modelos generativos basados en recompensas

El muestreo adjunto representa un paso importante en el modelado generativo sin datos. Al aprovechar las señales de recompensa escalar y un método eficiente de entrenamiento en política basado en el control estocástico, permite el entrenamiento escalable de los muestreadores basados en difusión con evaluaciones de energía mínimas. Su integración de simetrías geométricas y su capacidad para generalizar a través de diversas estructuras moleculares lo posicionan como una herramienta fundamental en química computacional y más allá.

Mira el Papel, Modelo en la cara abrazada y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

🚨 Construye Genai en el que puedas confiar. ⭐️ Parlant es su motor de código abierto para conversaciones de IA controladas, cumplidas y con propósito: ¡Star Parlant en Github! (Promocionado)

El muestreo sin datos ahora es escalable: Meta AI libera el muestreo adjunto para el modelado generativo impulsado por las recompensas

ByEquipo de 7 minutos

La escasez de datos en el modelado generativo

Meta AI presenta un muestreo adjunto, un nuevo algoritmo de aprendizaje basado en recompensas escalar

Detalle técnico

Insights de rendimiento y resultados de referencia

Conclusión: una ruta escalable hacia adelante para los modelos generativos basados en recompensas

By Equipo de 7 minutos

Related Post

Tutorial de NVIDIA Garak: cree un flujo de trabajo de equipo rojo LLM defensivo completo con sondas y detectores personalizados

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026

Conozca Harness-1: un subagente de recuperación 20B capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado en gpt-oss-20b

You missed

Tutorial de NVIDIA Garak: cree un flujo de trabajo de equipo rojo LLM defensivo completo con sondas y detectores personalizados

Cómo las matemáticas pueden ayudarte a decidir qué pedir para la cena

PP VOX ANDALUCÍA | Primer encuentro de Moreno y Abascal: una charla a dos en el Palacio Real abre las negociaciones de Andalucía

Arquitecto de la economía de agentes en el fútbol

ByEquipo de 7 minutos

La escasez de datos en el modelado generativo

Meta AI presenta un muestreo adjunto, un nuevo algoritmo de aprendizaje basado en recompensas escalar

Detalle técnico

Insights de rendimiento y resultados de referencia

Conclusión: una ruta escalable hacia adelante para los modelos generativos basados ​​en recompensas

By Equipo de 7 minutos

Related Post

You missed

Conclusión: una ruta escalable hacia adelante para los modelos generativos basados en recompensas