Meta Investigers introdujo J1: un marco de aprendizaje de refuerzo que capacita a los modelos de idiomas para juzgar con consistencia razonada y datos mínimos

Ahora se están utilizando modelos de idiomas grandes para tareas de evaluación y juicio, que se extienden más allá de su papel tradicional de la generación de texto. Esto ha llevado a “LLM-As-A-Judge”, donde los modelos evalúan los resultados de otros modelos de idiomas. Dichas evaluaciones son esenciales para el refuerzo de aprendizaje de las tuberías, las pruebas de referencia y la alineación del sistema. Estos modelos de juez se basan en el razonamiento interno de la cadena de pensamiento, reflejando los procesos de juicio humano. A diferencia de los modelos de recompensa convencionales que proporcionan puntajes directos, estos modelos simulan una evaluación reflexiva, lo que los hace más adecuados para tareas complejas, como la resolución de problemas matemáticos, el razonamiento ético e interpretación de la intención del usuario. Su capacidad para interpretar y validar las respuestas entre idiomas y dominios mejora la automatización y la escalabilidad en el desarrollo del modelo de lenguaje.

Sin embargo, los sistemas de juicio de IA actuales enfrentan problemas con la inconsistencia y el razonamiento superficial. Muchos confían en métricas básicas o anotaciones estáticas, que son inadecuadas para evaluar las indicaciones subjetivas o abiertas. Un problema común es el sesgo de posición, donde el orden de las respuestas afecta la decisión final, comprometiendo la equidad. Además, la recopilación de datos anotados por humanos a escala es costoso y requiere mucho tiempo, lo que limita la generalización de estos modelos.

Varios enfoques existentes han abordado estos desafíos, pero con un éxito limitado. Sistemas como Evalplanner y Deepseek-Grm dependen de datos marcados con humanos o esquemas de entrenamiento rígidos, que limitan la adaptabilidad en los tipos de tareas. Otros, como Deepseek-R1, dependen de la destilación de modelos grandes pero funcionan mal de indicaciones ambiguas. Los conjuntos de datos estáticos y las estrategias de ajuste fuera de línea obstaculizan el razonamiento dinámico, mientras que los métodos más nuevos que utilizan formateo de puntaje o indicaciones estructuradas han mostrado mejoras de precisión mínimas. A pesar de los conjuntos de datos y modelos más grandes, las ganancias de rendimiento en los sistemas tradicionales se han estancado.

Investigadores de los equipos de Genai y justos de Meta J1 Para abordar las limitaciones anteriores. J1 capacita a los modelos de juicio a través de un marco basado en el aprendizaje de refuerzo, lo que los hace capaces de aprender a través de señales de recompensa verificables. El equipo utilizó datos sintéticos para crear respuestas de alta calidad y baja calidad a una rápida, transformando tareas subjetivas en juicios verificables por pares. Este conjunto de datos sintético incluyó 22,000 pares de preferencias, divididos entre 17,000 indicaciones del Corpus Wildchat y 5,000 consultas matemáticas. Estos se usaron para entrenar dos versiones de J1: J1-llama-8b y J1-llama-70binicializado a partir de los modelos base de instrucciones LLAMA-3.1-8B y LLAMA-3.3-70B-INSTRUST, respectivamente. Los modelos fueron entrenados utilizando la optimización de políticas relativas del grupo (GRPO), un algoritmo de refuerzo que elimina la necesidad de modelos críticos y acelera la convergencia.

El núcleo de la estrategia de entrenamiento es el aprendizaje de posición-agnóstico, donde los formatos de entrada (x, a, b) y (x, b, a) se utilizan en el entrenamiento para evitar el sesgo de posición. Además, las recompensas basadas en la consistencia se aplican solo cuando el modelo entrega veredictos correctos en ambos pedidos de respuestas. Esta estructura permite que el juez sea justo y confiable independientemente de la orden de respuesta o respuesta. El marco de capacitación admite múltiples variaciones: los modelos pueden emitir veredictos finales, puntajes numéricos para cada respuesta o ambos. Se incluye una variante de juicio puntual, que evalúa las respuestas individuales utilizando puntajes de 0 a 10. Estos formatos hacen de J1 un sistema versátil y generalizable capaz de juzgar varias tareas.

Los resultados obtenidos utilizando los modelos J1 revelan mejoras sustanciales de rendimiento sobre los sistemas existentes. En el índice de referencia de proxy de preferencias (PPE) ampliamente utilizado, J1-Llama-70B logró una precisión general del 69.6%, superando los modelos entrenados con más de diez veces más datos. Por el contrario, modelos como Deepseek-GRM-27B y Evalplanner-Llama-70B obtuvieron 67.2% y 65.6%, respectivamente. Incluso el modelo J1-Llama-8B más pequeño excedió los sistemas de referencia como Evalplanner-Llama-8B, obteniendo un 62.2% versus 55.5%. J1 también mostró un rendimiento de primer nivel en otros puntos de referencia críticos, como Recomptsbench, RM Bench, JudgeBench y FollowBencheval, demostrando una generalización robusta en tareas verificables y subjetivas. Estas mejoras no son solo marginales sino significativas, considerando los datos de entrenamiento limitados utilizados en J1 en comparación con los conjuntos de datos expansivos en otros modelos.

Varias conclusiones clave de la investigación sobre J1:

J1 está entrenado utilizando 22,000 pares de preferencias sintéticas, incluidos 17k de Wildchat y 5K de tareas matemáticas.
La capacitación utiliza GRPO, que agiliza RL al evitar la necesidad de modelos críticos separados.
Introduce el aprendizaje de la posición y el agnóstico, reduciendo el sesgo de posición a través de recompensas basadas en la consistencia.
Dos variantes del modelo principal, J1-LLAMA-8B y J1-LLAMA-70B, fueron entrenadas en datos modestos pero superaron a modelos a gran escala.
J1-LLAMA-70B obtuvo un 69.6%en PPE, excediendo Deepseek-GRM-27B (67.2%) y Evalplanner-Llama-70b (65.6%).
Admite múltiples formatos de juicio: por pares con veredictos, por pares con puntajes y puntajes puntuales.
Supera los modelos destilados de Deepseek-R1 y O1-Mini de OpenAI en varias tareas.
Demuestra que la calidad del razonamiento, no solo el tamaño del conjunto de datos, es crítica para juicios precisos.
El marco de J1 lo convierte en un juez generalista aplicable a las tareas verificables y no verificables.

En conclusión, el enfoque J1 redefine fundamentalmente cómo se entrenan y evalúan los modelos de juicio. Los datos sintéticos y el aprendizaje de refuerzo evitan la necesidad tradicional de anotaciones costosas al tiempo que promueven evaluaciones justas, lógicas y consistentes. Este trabajo ilustra que el juicio basado en el razonamiento puede superar a los modelos más grandes que dependen en gran medida del volumen de datos y las técnicas de alineación estática. También valida la noción de que los modelos de juicio deben ser primero pensadores, y los anotadores en segundo lugar. Con el rendimiento que rivaliza y a menudo supera los sistemas de última generación, J1 establece un nuevo punto de referencia en los sistemas de capacitación LLM-as-a-Judge.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Meta Investigers introdujo J1: un marco de aprendizaje de refuerzo que capacita a los modelos de idiomas para juzgar con consistencia razonada y datos mínimos

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

El equipo Qwen de Alibaba lanza Qwen3.6-27B: un modelo denso y abierto que supera a 397 mil millones de MoE en puntos de referencia de codificación agente

“Es posible que su próximo compañero de trabajo no sea humano”, mientras Google apuesta todo por los agentes de inteligencia artificial para impulsar la oficina

Google Cloud AI Research presenta ReasoningBank: un marco de memoria que destila estrategias de razonamiento a partir de los éxitos y fracasos de los agentes

You missed

El equipo Qwen de Alibaba lanza Qwen3.6-27B: un modelo denso y abierto que supera a 397 mil millones de MoE en puntos de referencia de codificación agente

El estudio más grande jamás realizado sobre el genoma del elefante revela una crisis oculta y un camino hacia una mejor conservación

¿Qué se necesitaría para domar el “expediente de las sombras”?

“The Pitch Doctor” Christoph Sollich se une a la Cumbre UE-Startups 2026 en Malta