Operai libera refuerzo de refuerzo (RFT) en O4-Mini: un paso adelante en la optimización del modelo personalizado

Operai ha lanzado refuerzo de refuerzo (RFT) en su modelo de razonamiento O4-Mini, introduciendo una nueva técnica poderosa para adaptar a los modelos de base a tareas especializadas. Basado en los principios del aprendizaje de refuerzo, RFT permite a las organizaciones definir objetivos personalizados y funciones de recompensas, lo que permite un control de grano fino sobre cómo mejoran los modelos, más allá de lo que ofrece el ajuste fino supervisado estándar.

En esencia, RFT está diseñado para ayudar a los desarrolladores a empujar los modelos más cerca del comportamiento ideal para aplicaciones del mundo real al enseñarles no solo qué hacer, sino por qué se prefiere esa salida en un dominio particular.

¿Qué es el refuerzo ajustado?

El refuerzo de ajuste fino aplica principios de aprendizaje de refuerzo al modelo de idioma ajustado. En lugar de confiar únicamente en ejemplos etiquetados, los desarrolladores proporcionan una tarea específica calificador—Un función que evalúa y califica las salidas del modelo en función de los criterios personalizados. Luego, el modelo se entrena para optimizar contra esta señal de recompensa, aprendiendo gradualmente a generar respuestas que se alinean con el comportamiento deseado.

Este enfoque es particularmente valioso para las tareas matizadas o subjetivas donde la verdad terrestre es difícil de definir. Por ejemplo, es posible que no haya etiquetado datos para “la mejor manera de expresar una explicación médica”, pero puede escribir un programa que evalúe la claridad, la corrección y la integridad, y dejar que el modelo aprenda en consecuencia.

¿Por qué O4-Mini?

O4-Mini de OpenAI es un modelo de razonamiento compacto lanzado en abril de 2025, optimizado para entradas de texto e imágenes. Es parte de la nueva generación de modelos con capacidad multitarea de OpenAI y es particularmente fuerte en el razonamiento estructurado y las indicaciones de la cadena de pensamiento.

Al habilitar RFT en O4-Mini, OpenAI brinda a los desarrolladores acceso a una base liviana pero capaz que puede ajustarse con precisión para tareas de razonamiento de alto riesgo y específicas de dominio, mientras sigue siendo computacionalmente eficiente y lo suficientemente rápido para aplicaciones en tiempo real.

Casos de uso aplicado: lo que los desarrolladores están construyendo con RFT

Varios primeros usuarios han demostrado el potencial práctico de RFT en O4-Mini:

  • Conformidad ai Creó un modelo de análisis de impuestos personalizados que mejoró la precisión en un 39% sobre la línea de base, utilizando un alumno basado en reglas para hacer cumplir la lógica de cumplimiento.
  • Atención médica del ambiente Usó RFT para mejorar la precisión de la codificación médica, aumentando el rendimiento de la asignación de ICD-10 por 12 puntos sobre las etiquetas escritas por el médico.
  • Cascarrabiasuna startup legal de IA, ajustó un modelo para extraer citas de documentos legales con una mejora del 20% en F1, que coincide con GPT-4O en el rendimiento con una latencia reducida.
  • Runloop Entrenó al modelo para generar fragmentos de API de rayas válidas, logrando una ganancia del 12% utilizando la validación AST y la clasificación basada en sintaxis.
  • Miloun asistente de programación, mejor calidad de salida en las indicaciones de calendario complejo en 25 puntos.
  • Kit de seguridad Precisión de moderación de contenido aumentada en la producción del 86% al 90% F1 al hacer cumplir el cumplimiento de la política granular a través de funciones de calificación personalizada.

Estos ejemplos subrayan la fuerza de RFT para alinear los modelos con los requisitos específicos de los casos de uso, ya sea que los involucran razonamiento legal, comprensión médica, síntesis de código o aplicación de políticas.

Cómo usar RFT en O4-Mini

Comenzar con el ajuste fino de refuerzo implica cuatro componentes clave:

  1. Diseñar una función de calificación: Los desarrolladores definen una función de Python que evalúa las salidas del modelo. Esta función devuelve una puntuación de 0 a 1 y puede codificar las preferencias específicas de la tarea, como corrección, formato o tono.
  2. Preparar un conjunto de datos: Un conjunto de datos de alta calidad es esencial. OpenAI recomienda usar ejemplos diversos y desafiantes que reflejen la tarea objetivo.
  3. Lanzar un trabajo de capacitación: A través de la API o tablero de ajuste de FINAI, los usuarios pueden iniciar ejecuciones RFT con configuraciones ajustables y seguimiento de rendimiento.
  4. Evaluar e iterar: Los desarrolladores monitorean la progresión de la recompensa, evalúan los puntos de control y refinan la lógica de calificación para maximizar el rendimiento con el tiempo.

La documentación y los ejemplos completos están disponibles a través de Operai’s Guía RFT.

Acceso y precios

RFT está actualmente disponible para organizaciones verificadas. Los costos de capacitación se facturan a $ 100/hora por tiempo de entrenamiento activo. Si se utiliza un modelo OpenAI alojado para ejecutar el Grader (por ejemplo, GPT-4O), el uso de tokens para esas llamadas se cobra por separado a las tasas de inferencia estándar.

Como incentivo, Openai ofrece un descuento de costos de capacitación del 50% para las organizaciones que acuerdan compartir sus conjuntos de datos para fines de investigación y mejora del modelo.

Un salto técnico para la personalización del modelo

El refuerzo del ajuste fino representa un cambio en la forma en que adaptamos los modelos de base a necesidades específicas. En lugar de simplemente replicar salidas etiquetadas, RFT permite a los modelos internalizar los bucles de retroalimentación que reflejan los objetivos y restricciones de las aplicaciones del mundo real. Para las organizaciones que trabajan en flujos de trabajo complejos donde importan la precisión y la alineación, esta nueva capacidad abre una ruta crítica hacia la implementación de IA confiable y eficiente.

Con RFT ahora disponible en el modelo de razonamiento O4-Mini, OpenAI está equipando a los desarrolladores con herramientas no solo para ajustar el lenguaje, sino para ajustar el razonamiento mismo.


Mira el Documentación detallada aquí. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.