AI que se enseña a sí misma: los trenes ‘Absolute Zero’ de la Universidad Tsinghua con datos externos cero

Los LLM han mostrado avances en las capacidades de razonamiento a través del aprendizaje de refuerzo con recompensas verificables (RLVR), que se basa en la retroalimentación basada en resultados en lugar de imitar los pasos de razonamiento intermedio. Los trabajos actuales de RLVR enfrentan desafíos críticos de escalabilidad, ya que dependen en gran medida de colecciones de preguntas y respuestas para capacitación manualmente seleccionadas. A medida que avanzan los modelos de razonamiento, la construcción de conjuntos de datos a gran escala y de alta calidad se vuelve cada vez más insostenible, similar a los cuellos de botella identificados en la pretruación de LLM. Además, la dependencia exclusiva de las tareas diseñadas por humanos puede limitar la capacidad de los sistemas de IA para el aprendizaje y el desarrollo autónomos, especialmente a medida que evolucionan más allá de las capacidades intelectuales humanas.

Los investigadores han explorado varios enfoques para mejorar las capacidades de razonamiento de LLM. Star fue pionera en auto-bootstrapping utilizando la iteración experta y el muestreo de rechazo de las respuestas verificadas por el resultado para mejorar el razonamiento de COT. El modelo O1 desplegó este concepto a escala, logrando resultados de última generación, y R1 más tarde se convirtió en el primer modelo de peso abierto en coincidir o superar el rendimiento de O1 al introducir la configuración “cero” donde RL se aplica directamente a la base de LLM. Además, los paradigmas de autocompasión han evolucionado desde las primeras configuraciones de dos agentes de Schmidhuber a implementaciones más complejas como Alphago y Alphazero. Métodos recientes como el giro, los modelos de lenguaje autocromitantes, SPC y SPAG han aplicado la autoestima a los modelos de lenguaje para la alineación y el razonamiento.

Investigadores de la Universidad de Tsinghua, el Instituto de Beijing para la Inteligencia Artificial General y la Universidad Estatal de Pensilvania han propuesto un paradigma RLVR llamado Absolute Zero para permitir que un solo modelo genere y resuelva de forma autónoma y resuelva tareas que maximicen su propio progreso de aprendizaje sin confiar en ningún datos externos. Según este método, los investigadores han introducido el razonador Zero Absoluto (AZR) que evoluciona a autovolve su plan de estudios de capacitación y su capacidad de razonamiento a través de un ejecutor de código que valida las tareas de razonamiento de código propuestas y verifica las respuestas, proporcionando una fuente unificada de recompensa verificable para guiar el aprendizaje abierto pero fundamental. AZR se puede implementar de manera efectiva a través de diferentes escalas de modelo y sigue siendo compatible con varias clases de modelos, lo que sugiere una amplia aplicabilidad.

Los LLM proporcionan un marco ideal para implementar AZR en contextos de aprendizaje multitarea. Durante cada iteración de despliegue en línea en la ecuación objetiva de la configuración cero absoluta, AZR propone nuevas tareas de razonamiento basadas en el tipo de tarea y los ejemplos autogenerados pasados, con indicaciones explícitas para generar diversas tareas y luego intenta resolverlas, recibiendo comentarios fundamentados para las respuestas de su modelo. AZR utiliza un ejecutor de código como una interfaz flexible y un entorno verificable, lo que permite la construcción automática, la ejecución y la validación de las tareas de razonamiento de código. Por último, el algoritmo AZR incluye inicialización del búfer, entradas de propuestas de tareas y gestión de búfer, construcción de tareas válidas, validación de solución y cálculo del estimador de ventaja a través de la refuerza relativa a las tareas ++.

El Absolute Zero Reasoner-Coder-7B ha logrado un rendimiento de vanguardia en las categorías promedio general y promedio de codificación de 7B, superando los mejores modelos anteriores en 1.8 puntos porcentuales absolutos a pesar de estar completamente fuera de distribución para los puntos de referencia de razonamiento de matemáticas y de código. Superenta a los modelos capacitados con datos humanos curados por expertos en la codificación en 0.3 puntos porcentuales absolutos al tiempo que nunca acceden a dichos datos en sí. El análisis de escala revela que AZR ofrece mayores ganancias en modelos más grandes, con los modelos 7B y 14B que continúan mejorando más allá de 200 pasos de entrenamiento, mientras que el modelo 3B se viene. Las ganancias de rendimiento fuera de distribución aumentan con el tamaño del modelo: +5.7, +10.2 y +13.2 para 3b, 7b y 14b, respectivamente.

En conclusión, los investigadores introdujeron el paradigma cero absoluto para abordar las limitaciones de datos en los marcos RLVR existentes. Según este método, los investigadores presentan AZR, que capacita a los modelos para proponer y resolver tareas de razonamiento relacionadas con el código basadas en un ejecutor de código. Sin embargo, existe una limitación con respecto a la gestión de la seguridad en los sistemas de administración automática. El equipo observó varios casos de razonamiento de COT de concentración de seguridad del modelo LLAMA-3.1-8B, denominado “momentos UH-OH”. Los resultados indican que si bien el paradigma cero absoluto reduce las necesidades de intervención humana en la curación de la tarea, la supervisión continua sigue siendo necesaria para abordar las preocupaciones de seguridad persistentes, destacando una dirección crítica para futuras investigaciones.


Mira el Papel, Modelo en la cara abrazada y Página de Github. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Sajjad Ansari es un pregrado de último año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo real. Su objetivo es articular conceptos complejos de IA de manera clara y accesible.