Uso de GPT-4 para moderación de contenido

Estamos explorando el uso de LLM para abordar estos desafíos. Nuestros grandes modelos de lenguaje, como GPT-4, pueden comprender y generar lenguaje natural, lo que los hace aplicables a la moderación de contenido. Los modelos pueden emitir juicios de moderación basados ​​en las directrices de política que se les proporcionan.

Con este sistema, el proceso de desarrollo y personalización de políticas de contenido se reduce de meses a horas.

  1. Una vez que se redacta una directriz de políticas, los expertos en políticas pueden crear un conjunto de datos valiosos identificando una pequeña cantidad de ejemplos y asignándoles etiquetas de acuerdo con la política.
  2. Luego, GPT-4 lee la política y asigna etiquetas al mismo conjunto de datos, sin ver las respuestas.
  3. Al examinar las discrepancias entre los juicios de GPT-4 y los de un ser humano, los expertos en políticas pueden pedirle a GPT-4 que presente un razonamiento detrás de sus etiquetas, analice la ambigüedad en las definiciones de políticas, resuelva la confusión y proporcione más aclaraciones en la política en consecuencia. Podemos repetir los pasos 2 y 3 hasta que estemos satisfechos con la calidad de la póliza.

Este proceso iterativo produce políticas de contenido refinadas que se traducen en clasificadores, lo que permite la implementación de la política y la moderación de contenido a escala.

Opcionalmente, para manejar grandes cantidades de datos a escala, podemos usar las predicciones de GPT-4 para ajustar un modelo mucho más pequeño.