Ether0: A 24B LLM entrenado con refuerzo de aprendizaje RL para tareas avanzadas de razonamiento químico

Los LLM mejoran principalmente la precisión mediante la escala de datos de pre-entrenamiento y recursos informáticos. Sin embargo, la atención ha cambiado hacia la escala alternativa debido a la disponibilidad de datos finitos. Esto incluye capacitación en el tiempo de prueba e escala de cómputo de inferencia. Los modelos de razonamiento mejoran el rendimiento emitiendo procesos de pensamiento antes de las respuestas, inicialmente a través de la solicitud de cuna. Recientemente, se ha utilizado el aprendizaje de refuerzo (RL) después del entrenamiento. Los dominios científicos presentan oportunidades ideales para modelos de razonamiento. La razón es que implican “problemas inversos” donde la evaluación de la calidad de la solución es sencilla, pero la generación de soluciones sigue siendo un desafío. A pesar de la alineación conceptual entre el razonamiento científico estructurado y las capacidades del modelo, los métodos actuales carecen de enfoques detallados para el razonamiento científico más allá de los puntos de referencia de opción múltiple.

Evolución técnica de arquitecturas de razonamiento

Los modelos de razonamiento han evolucionado a partir de métodos iniciales tempranos como cot, cuna de disparo cero y árbol de pensamiento. Han progresado a enfoques RL complejos a través de la optimización de políticas relativas del grupo (GRPO) y la escala de tiempo de inferencia. Además, los modelos de razonamiento en química se centran en puntos de referencia basados ​​en el conocimiento en lugar de complejas tareas de razonamiento. Los ejemplos incluyen retrosíntesis o diseño molecular. Si bien los conjuntos de datos como GPQA-D y MMLU evalúan el conocimiento químico, no evalúan las capacidades de razonamiento químico complejos. Los esfuerzos de razonamiento científico actuales permanecen fragmentados. Los intentos limitados incluyen Omniscience for General Science, MED-R1 para tareas en idioma de visión médica y Biorracional para el razonamiento genómico. Sin embargo, no existe un marco integral para el entrenamiento del modelo de razonamiento químico a gran escala.

Principios de arquitectura y diseño de Ether0

Los investigadores de Futurehouse han propuesto éter0un modelo novedoso que razona en el lenguaje natural y produce estructuras moleculares como cadenas de sonrisas. Demuestra la eficacia de los modelos de razonamiento en tareas químicas. Supera a Frontier LLMS, expertos humanos y modelos de química general. El enfoque de entrenamiento utiliza varias optimizaciones sobre Vanilla RL. Esto incluye la destilación del comportamiento de razonamiento, un plan de estudios dinámico e inicialización del modelo experto para mejorar la eficiencia y la efectividad. Además, se analizan factores como la eficiencia de los datos, los modos de falla y el comportamiento de razonamiento. Este análisis permite una mejor comprensión de la utilidad de razonamiento para resolver problemas de química.

Tubería de entrenamiento: destilación e integración de GRPO

El modelo emplea un procedimiento de capacitación en varias etapas que se alterna entre la destilación y las fases GRPO. La arquitectura presenta cuatro tokens especiales. Estas fichas demarcan el razonamiento y los límites de las respuestas. El entrenamiento comienza con SFT en secuencias de cuna largas generadas por Deepseek-R1. Estos se filtran para formato de sonrisas válidas y calidad de razonamiento. Specialist RL luego optimiza las políticas específicas de la tarea para diferentes categorías de problemas con GRPO. Luego, la destilación fusiona modelos especializados en un generalista. Esta fusión ocurre a través de SFT en las respuestas correctas recopiladas durante todo el entrenamiento. La fase final aplica GRPO generalista al modelo fusionado. Esto incluye un filtrado de calidad continua para eliminar el razonamiento de baja calidad y las subestructuras moleculares indeseables.

Evaluación de rendimiento y puntos de referencia comparativos

Ether0 demuestra un rendimiento superior tanto contra los LLM de uso general como Claude y O1, y modelos específicos de química, incluidos ChemDFM y TXGEMMA. Logra la mayor precisión en todas las categorías de respuesta abierta al tiempo que mantiene el rendimiento competitivo en preguntas de opción múltiple. Para la eficiencia de los datos, el modelo supera a los modelos de transformadores moleculares tradicionales. Está capacitado en solo 60,000 reacciones en comparación con los conjuntos de datos USPTO completos. Ether0 logra una precisión del 70% después de ver 46,000 ejemplos de entrenamiento. Los transformadores moleculares lograron 64.1% en conjuntos de datos completos en comparación. En condiciones de solicitación de un solo disparo, Ether0 supera todos los modelos de frontera evaluados. Los procedimientos de alineación de seguridad filtran con éxito el 80% de las preguntas inseguras sin degradar el rendimiento en las tareas de química central.

Conclusión: Implicaciones para futuros LLM científicos

En conclusión, los investigadores introdujeron Ether0, un modelo de parámetro 24B entrenado en diez tareas moleculares desafiantes. Supera significativamente a Frontier LLMS, expertos en dominios y modelos especializados. Esto se logra a través de su RL entrelazada y la tubería de destilación de comportamiento. El modelo exhibe capacidades excepcionales de eficiencia de datos y razonamiento. Se destaca en tareas de química de respuesta abierta que involucran diseño molecular, finalización, modificación y síntesis. Sin embargo, las limitaciones incluyen posibles desafíos de generalización más allá de la química orgánica. Además, hay una pérdida de instrucciones generales y ausencia de integración de llamadas de herramientas. La liberación de pesos de modelo, datos de referencia y funciones de recompensa establece una base. Esta base ayuda a avanzar en los modelos de razonamiento científico en diversos dominios.


Mira el Papel y Detalle técnico. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín.

▶ ¿Desea promover su producto/seminario web/servicio a 1 millón+ ingenieros de IA/desarrolladores/científicos de datos/arquitectos/CTO/CIO? Vamos a socio ..


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.