Optimización de la prueba de tiempo de prueba para LLM: un enfoque de aprendizaje de meta-refuerzo con minimización de arrepentimiento acumulativo
Mejorar las habilidades de razonamiento de los LLM mediante la optimización del cálculo de tiempo de prueba es un desafío de investigación crítico. Los enfoques actuales se basan principalmente en…