Mucha gente entiende el concepto de sesgo en algún nivel intuitivo. En la sociedad y en los sistemas de inteligencia artificial, prejuicios raciales y de género están bien documentados.
Si la sociedad pudiera de alguna manera eliminar los prejuicios, ¿desaparecerían todos los problemas? El difunto premio Nobel Daniel Kahnemanquien fue una figura clave en el campo de la economía del comportamiento, argumentó en su último libro ese sesgo es sólo una cara de la moneda. Los errores en los juicios pueden atribuirse a dos fuentes: sesgo y ruido.
El sesgo y el ruido desempeñan papeles importantes en campos como ley, medicamento y previsión financieradónde Los juicios humanos son centrales.. En nuestro trabajo como científicos informáticos y de la información, mis colegas y I He descubierto que el ruido también juega un papel en la IA.
Ruido estadístico
En este contexto, el ruido significa variación en la forma en que las personas juzgan el mismo problema o situación. El problema del ruido es más generalizado de lo que parece a primera vista. A trabajo seminalque se remonta a la Gran Depresión, ha descubierto que diferentes jueces dictaron sentencias diferentes para casos similares.
Lo preocupante es que la sentencia en los casos judiciales puede depender de cosas como la temperatura y si el equipo de fútbol local ganó. Esos factores, al menos en parte, contribuyen a la percepción de que el sistema de justicia no sólo es parcial sino también, en ocasiones, arbitrario.
Otros ejemplos: Los ajustadores de seguros podrían dar estimaciones diferentes para reclamos similares, reflejando ruido en sus juicios. Es probable que el ruido esté presente en todo tipo de concursos, desde catas de vino hasta concursos de belleza locales y admisiones universitarias.
El economista conductual Daniel Kahneman explica el concepto de ruido en el juicio humano.
Ruido en los datos
A primera vista, no parece probable que el ruido pueda afectar el rendimiento de los sistemas de IA. Después de todo, las máquinas no se ven afectadas por el clima ni por los equipos de fútbol, entonces, ¿por qué harían juicios que varían según las circunstancias? Por otra parte, los investigadores saben que el sesgo afecta a la IAporque es reflejado en los datos en el que se entrena la IA.
Para la nueva serie de modelos de IA como ChatGPT, el estándar de oro es el desempeño humano en problemas generales de inteligencia como sentido común. ChatGPT y sus pares son medido contra humanos etiquetados conjuntos de datos de sentido común.
En pocas palabras, los investigadores y desarrolladores pueden hacerle a la máquina una pregunta de sentido común y compararla con las respuestas humanas: “Si coloco una piedra pesada sobre una mesa de papel, ¿colapsará? Sí o no.” Según la prueba, si hay un alto grado de acuerdo entre ambos (en el mejor de los casos, un acuerdo perfecto), la máquina se acerca al sentido común a nivel humano.
Entonces, ¿de dónde entraría el ruido? La pregunta de sentido común anterior parece simple, y la mayoría de los humanos probablemente estarían de acuerdo con su respuesta, pero hay muchas preguntas en las que hay más desacuerdo o incertidumbre: “¿Es la siguiente oración plausible o inverosímil? Mi perro juega voleibol”. En otras palabras, existe la posibilidad de que se produzca ruido. No es sorprendente que preguntas interesantes de sentido común tengan algo de ruido.
Pero el problema es que la mayoría de las pruebas de IA no tienen en cuenta este ruido en los experimentos. Intuitivamente, las preguntas que generan respuestas humanas que tienden a concordar entre sí deberían tener una mayor ponderación que si las respuestas divergen; en otras palabras, cuando hay ruido. Los investigadores aún no saben si sopesar las respuestas de la IA en esa situación, ni cómo hacerlo, pero un primer paso es reconocer que el problema existe.
Rastreando Doise en la máquina
Teoría a un lado, aún queda la duda de si todo lo anterior es hipotético o si en las pruebas reales de sentido común hay ruido. La mejor manera de probar o refutar la presencia de ruido es realizar una prueba existente, eliminar las respuestas y hacer que varias personas las etiqueten de forma independiente, es decir, proporcionen respuestas. Al medir el desacuerdo entre humanos, los investigadores pueden saber cuánto ruido hay en la prueba.
Los detalles detrás de la medición de este desacuerdo son complejos e involucran estadísticas y matemáticas importantes. Además, ¿quién puede decir cómo debería definirse el sentido común? ¿Cómo sabes que los jueces humanos están lo suficientemente motivados para pensar en la pregunta? Estas cuestiones se encuentran en la intersección entre un buen diseño experimental y estadísticas. La solidez es clave: es poco probable que un resultado, una prueba o un conjunto de etiquetadores humanos convenzan a nadie. Como cuestión pragmática, el trabajo humano es caro. Quizás por esta razón no se han realizado estudios sobre el posible ruido en las pruebas de IA.
Para abordar esta brecha, mis colegas y yo diseñamos un estudio de este tipo y Publicamos nuestros hallazgos. en Nature Scientific Reports, que muestra que incluso en el ámbito del sentido común, el ruido es inevitable. Como el entorno en el que se generan los juicios puede ser importante, realizamos dos tipos de estudios. Un tipo de estudio involucró a trabajadores remunerados de Turco mecánico amazónicomientras que el otro estudio implicó un ejercicio de etiquetado a menor escala en dos laboratorios de la Universidad del Sur de California y el Instituto Politécnico Rensselaer.
Puede pensar en el primero como un entorno en línea más realista, que refleja cuántas pruebas de IA están realmente etiquetadas antes de publicarse para capacitación y evaluación. Este último es más extremo y garantiza una alta calidad pero a escalas mucho más pequeñas. La pregunta que nos propusimos responder fue: ¿qué tan inevitable es el ruido? ¿Es sólo una cuestión de control de calidad?
Los resultados fueron aleccionadores. En ambos contextos, incluso en cuestiones de sentido común que se podría haber esperado que provocaran un alto –incluso universal– acuerdo, encontramos un grado no trivial de ruido. El ruido era lo suficientemente alto como para inferir que entre el 4% y el 10% del rendimiento de un sistema podría atribuirse al ruido.
Para enfatizar lo que esto significa, supongamos que construí un sistema de IA que logró el 85 % en una prueba y usted construyó un sistema de IA que logró el 91 %. Su sistema parece ser mucho mejor que el mío. Pero si hay ruido en las etiquetas humanas que se utilizaron para calificar las respuestas, entonces ya no estamos seguros de que la mejora del 6% signifique mucho. Por lo que sabemos, es posible que no haya una mejora real.
En las tablas de clasificación de IA, donde se comparan grandes modelos de lenguaje como el que impulsa ChatGPT, las diferencias de rendimiento entre sistemas rivales son mucho más estrechas, generalmente menos del 1%. Como mostramos en el artículo, las estadísticas ordinarias en realidad no ayudan a separar los efectos del ruido de los de las verdaderas mejoras en el rendimiento.
Auditorías de ruido
¿Cuál es el camino a seguir? Volviendo al libro de Kahneman, propuso el concepto de “auditoría de ruido” para cuantificar y, en última instancia, mitigar el ruido tanto como sea posible. Como mínimo, los investigadores de IA necesitan estimar qué influencia podría tener el ruido.
Auditar los sistemas de IA para detectar sesgos es algo común, por lo que creemos que el concepto de auditoría de ruido debería seguir naturalmente. Esperamos que este estudio, así como otros similares, conduzcan a su adopción.
Mayank Kejriwal es profesor asistente de investigación de ingeniería industrial y de sistemas en la Universidad del Sur de California. Este artículo se republica desde La conversación debajo de Licencia Creative Commons. Leer el artículo original.