Mejores prácticas para el enriquecimiento de datos

Construir un enfoque responsable para la recopilación de datos con la Asociación sobre IA

En DeepMind, nuestro objetivo es asegurarnos de que todo lo que hacemos cumpla con los más altos estándares de seguridad y ética, en línea con nuestra Principios de operacion. Uno de los lugares más importantes por los que esto comienza es cómo recopilamos nuestros datos. En los últimos 12 meses, hemos colaborado con Asociación sobre IA (PAI) para considerar cuidadosamente estos desafíos y haber desarrollado conjuntamente mejores prácticas y procesos estandarizados para la recopilación responsable de datos humanos.

Recopilación de datos humanos

Hace más de tres años, creamos nuestro Comité de Ética en Investigación del Comportamiento Humano (HuBREC), un grupo de gobernanza inspirado en las juntas de revisión institucional académica (IRB), como las que se encuentran en hospitales y universidades, con el objetivo de proteger la dignidad, los derechos y bienestar de los participantes humanos involucrados en nuestros estudios. Este comité supervisa la investigación del comportamiento que involucra experimentos con humanos como tema de estudio, como la investigación de cómo los humanos interactúan con sistemas de inteligencia artificial (IA) en un proceso de toma de decisiones.

Además de los proyectos relacionados con la investigación del comportamiento, la comunidad de IA se ha involucrado cada vez más en esfuerzos que involucran el “enriquecimiento de datos”: tareas realizadas por humanos para entrenar y validar modelos de aprendizaje automático, como el etiquetado de datos y la evaluación de modelos. Si bien la investigación conductual a menudo se basa en participantes voluntarios que son el tema de estudio, el enriquecimiento de datos implica que se pague a las personas para que completen tareas que mejoren los modelos de IA.

Este tipo de tareas generalmente se llevan a cabo en plataformas de crowdsourcing, lo que a menudo plantea consideraciones éticas relacionadas con la remuneración, el bienestar y la equidad de los trabajadores que pueden carecer de la orientación o los sistemas de gobernanza necesarios para garantizar que se cumplan estándares suficientes. A medida que los laboratorios de investigación aceleren el desarrollo de modelos cada vez más sofisticados, es probable que crezca la dependencia de las prácticas de enriquecimiento de datos y, junto con esto, la necesidad de una orientación más sólida.

Como parte de nuestros Principios Operativos, nos comprometemos a defender y contribuir a las mejores prácticas en los campos de la seguridad y la ética de la IA, incluidas la equidad y la privacidad, para evitar resultados no deseados que generen riesgos de daño.

Las mejores practicas

Siguiendo a PAI informe técnico reciente En materia de abastecimiento responsable de servicios de enriquecimiento de datos, colaboramos para desarrollar nuestras prácticas y procesos para el enriquecimiento de datos. Esto incluyó la creación de cinco pasos que los profesionales de la IA pueden seguir para mejorar las condiciones laborales de las personas involucradas en tareas de enriquecimiento de datos (para más detalles, visite Directrices de abastecimiento de enriquecimiento de datos de PAI):

Seleccione un modelo de pago adecuado y asegúrese de que todos los trabajadores reciban un salario superior al salario digno local.
Diseñar y ejecutar un piloto antes de lanzar un proyecto de enriquecimiento de datos.
Identificar a los trabajadores adecuados para la tarea deseada.
Proporcionar instrucciones verificadas y/o materiales de capacitación para que los trabajadores las sigan.
Establecer mecanismos de comunicación claros y periódicos con los trabajadores.

Juntos, creamos las políticas y los recursos necesarios, reuniendo múltiples rondas de comentarios de nuestros equipos internos legales, de datos, de seguridad, de ética y de investigación en el proceso, antes de ponerlos a prueba en una pequeña cantidad de proyectos de recopilación de datos y luego implementarlos en la organización más amplia.

Estos documentos brindan más claridad sobre la mejor manera de configurar tareas de enriquecimiento de datos en DeepMind, mejorando la confianza de nuestros investigadores en el diseño y la ejecución del estudio. Esto no solo ha aumentado la eficiencia de nuestros procesos de aprobación y lanzamiento, sino que, lo que es más importante, ha mejorado la experiencia de las personas involucradas en las tareas de enriquecimiento de datos.

En el reciente estudio de caso de PAI se explica más información sobre las prácticas responsables de enriquecimiento de datos y cómo las hemos integrado en nuestros procesos existentes. Implementación de prácticas responsables de enriquecimiento de datos en un desarrollador de IA: el ejemplo de DeepMind. PAI también proporciona recursos útiles y materiales de apoyo para profesionales de IA y organizaciones que buscan desarrollar procesos similares.

Pensando en el futuro

Si bien estas mejores prácticas sustentan nuestro trabajo, no debemos confiar únicamente en ellas para garantizar que nuestros proyectos cumplan con los más altos estándares de bienestar y seguridad de los participantes o trabajadores en la investigación. Cada proyecto en DeepMind es diferente, por lo que contamos con un proceso de revisión de datos humanos dedicado que nos permite interactuar continuamente con equipos de investigación para identificar y mitigar los riesgos caso por caso.

Este trabajo pretende servir como recurso para otras organizaciones interesadas en mejorar sus prácticas de abastecimiento de enriquecimiento de datos, y esperamos que esto conduzca a conversaciones intersectoriales que puedan desarrollar aún más estas directrices y recursos para equipos y socios. A través de esta colaboración también esperamos generar un debate más amplio sobre cómo la comunidad de IA puede continuar desarrollando normas de recopilación de datos responsable y construir colectivamente mejores estándares industriales.

Lea más sobre nuestro Principios de operacion.

Mejores prácticas para el enriquecimiento de datos

ByEquipo de 7 minutos

Recopilación de datos humanos

Las mejores practicas

Pensando en el futuro

By Equipo de 7 minutos

Related Post

Un tutorial de codificación para ejecutar PrismML Bonsai 1-Bit LLM en CUDA con GGUF, evaluación comparativa, Chat, JSON y RAG

NVIDIA lanza Ising: la primera familia de modelos abiertos de IA cuántica para sistemas híbridos cuánticos-clásicos

xAI lanza las API independientes de voz a texto y de texto a voz de Grok, dirigidas a desarrolladores de voz empresarial

You missed

Se observan hormigas pequeñas limpiando hormigas grandes en el desierto de Arizona: un nuevo comportamiento en los insectos

El Partido Republicano critica los precios del gas

¿Deberían los expatriados que alquilan en España mudarse a una nueva casa en 2026? « Noticias semanales del euro

Serie La Sexta Facción de Veronica Roth