Utilizamos un sistema de seguridad de varios niveles para limitar la capacidad de DALL·E 3 de generar imágenes potencialmente dañinas, incluido contenido violento, para adultos u odioso. Los controles de seguridad se realizan sobre las indicaciones de los usuarios y las imágenes resultantes antes de que se muestren a los usuarios. También trabajamos con los primeros usuarios y los equipos rojos expertos para identificar y abordar las brechas en la cobertura de nuestros sistemas de seguridad que surgieron con las capacidades de los nuevos modelos. Por ejemplo, los comentarios nos ayudaron a identificar casos extremos para la generación de contenido gráfico, como imágenes sexuales, y a probar la capacidad del modelo para generar imágenes convincentemente engañosas.
Como parte del trabajo realizado para preparar DALL·E 3 para su implementación, también hemos tomado medidas para limitar la probabilidad del modelo de generar contenido al estilo de artistas vivos, imágenes de figuras públicas y mejorar la representación demográfica en las imágenes generadas. Para leer más sobre el trabajo realizado para preparar DALL·E 3 para una implementación amplia, consulte el Tarjeta del sistema DALL·E 3.
Los comentarios de los usuarios nos ayudarán a garantizar que sigamos mejorando. Los usuarios de ChatGPT pueden compartir comentarios con nuestro equipo de investigación utilizando el ícono de bandera para informarnos sobre resultados inseguros o resultados que no reflejan con precisión el mensaje que usted le dio a ChatGPT. Escuchar a una comunidad diversa y amplia de usuarios y tener comprensión del mundo real es fundamental para desarrollar e implementar la IA de manera responsable y es fundamental para nuestra misión.
Estamos investigando y evaluando una versión inicial de un clasificador de procedencia, una nueva herramienta interna que puede ayudarnos a identificar si una imagen fue generada o no por DALL·E 3. En las primeras evaluaciones internas, tiene una precisión superior al 99% a la hora de identificar si una imagen fue generada por DALL·E cuando la imagen no ha sido modificada. Sigue teniendo una precisión superior al 95% cuando la imagen ha sido sujeta a tipos comunes de modificaciones, como recorte, cambio de tamaño, compresión JPEG o cuando se superponen texto o recortes de imágenes reales en pequeñas porciones de la imagen generada. A pesar de estos sólidos resultados en las pruebas internas, el clasificador solo puede decirnos que es probable que DALL·E haya generado una imagen y aún no nos permite sacar conclusiones definitivas. Este clasificador de procedencia puede formar parte de una variedad de técnicas para ayudar a las personas a comprender si el contenido de audio o visual está generado por IA. Es un desafío que requerirá colaboración en toda la cadena de valor de la IA, incluidas las plataformas que distribuyen contenido a los usuarios. Esperamos aprender mucho sobre cómo funciona esta herramienta y dónde podría resultar más útil, y mejorar nuestro enfoque con el tiempo.