0hkuttfff7bxn4ds8.jpeg

Cuando los LLM nos brindan resultados que revelan fallas en la sociedad humana, ¿podemos elegir escuchar lo que nos dicen?

Foto por Vicente Fleming en desempaquetar

A estas alturas, estoy seguro de que la mayoría de ustedes han escuchado las noticias sobre El nuevo LLM* de Google, Gemini, genera imágenes de personas racialmente diversas con uniformes nazis. Esta pequeña noticia me recordó algo que quería discutir, que es cuando los modelos tienen puntos ciegos, por lo que aplicamos reglas expertas a las predicciones que generan para evitar devolver algo tremendamente extravagante al usuario.

En mi experiencia, este tipo de cosas no son tan infrecuentes en el aprendizaje automático, especialmente cuando tienes datos de entrenamiento defectuosos o limitados. Un buen ejemplo de esto que recuerdo de mi propio trabajo fue predecir cuándo se entregaría un paquete en una oficina comercial. Matemáticamente, nuestro modelo sería muy bueno para estimar exactamente cuándo el paquete llegaría físicamente cerca de la oficina, pero a veces, los camioneros llegan a sus destinos tarde en la noche y luego descansan en su camión o en un hotel hasta la mañana. ¿Por qué? Porque no hay nadie en la oficina para recibir/firmar el paquete fuera del horario comercial.

Enseñarle a un modelo la idea de “horario comercial” puede ser muy difícil, y la solución mucho más fácil fue simplemente decir: “Si el modelo dice que la entrega llegará fuera del horario comercial, agregue suficiente tiempo a la predicción para que cambie al horario comercial”. La próxima hora la oficina aparece como abierta”. ¡Simple! Resuelve el problema y refleja las circunstancias reales sobre el terreno. Simplemente le estamos dando un pequeño impulso al modelo para ayudar a que sus resultados funcionen mejor.

Sin embargo, esto causa algunos problemas. Por un lado, ahora tenemos dos predicciones de modelos diferentes que gestionar. No podemos simplemente desechar la predicción del modelo original, porque eso es lo que usamos para el monitoreo y las métricas del desempeño del modelo. No se puede evaluar un modelo basándose en predicciones después de que los humanos pusieran sus patas allí, eso no es matemáticamente sólido. Pero para tener una idea clara del impacto del modelo en el mundo real, conviene observar la predicción posterior a la regla, porque eso es lo que el cliente realmente experimentó/vio en su aplicación. En ML, estamos acostumbrados a un encuadre muy simple, donde cada vez que ejecutas un modelo obtienes un resultado o un conjunto de resultados, y eso es todo, pero cuando comienzas a modificar los resultados antes de dejarlos ir, entonces necesitas pensar en una escala diferente.

Sospecho que esto es una forma de lo que está sucediendo con los LLM como Gemini. Sin embargo, en lugar de una regla posterior a la predicción, parece que la Smart Money dice que Gemini y otros modelos están aplicando aumentos de indicaciones «secretos» para intentar cambiar los resultados que producen los LLM.

En esencia, sin este empujón, el modelo producirá resultados que reflejen el contenido en el que ha sido entrenado. Es decir, el contenido elaborado por personas reales. Nuestras publicaciones en las redes sociales, nuestros libros de historia, las pinturas de nuestros museos, nuestras canciones populares, nuestras películas de Hollywood, etc. El modelo asimila todo eso y aprende los patrones subyacentes, ya sean cosas de las que estamos orgullosos o de las que estamos orgullosos. no. Un modelo, dados todos los medios disponibles en nuestra sociedad contemporánea, estará muy expuesto al racismo, el sexismo y muchas otras formas de discriminación y desigualdad, por no hablar de la violencia, la guerra y otros horrores. Mientras el modelo aprende cómo lucen las personas, cómo suenan, qué dicen y cómo se mueven, está aprendiendo la versión con todos sus defectos.

Nuestras publicaciones en las redes sociales, nuestros libros de historia, las pinturas de nuestros museos, nuestras canciones populares, nuestras películas de Hollywood, etc. El modelo asimila todo eso y aprende los patrones subyacentes, ya sean cosas de las que estamos orgullosos o de las que estamos orgullosos. no.

Esto significa que si le pides al modelo subyacente que te muestre un médico, probablemente será un hombre blanco con bata de laboratorio. Esto no es simplemente aleatorio, se debe a que en nuestra sociedad moderna los hombres blancos tienen un acceso desproporcionado a profesiones de alto estatus como ser médicos, porque en promedio tienen acceso a más y mejor educación, recursos financieros, tutorías, privilegios sociales, etc. El modelo nos está reflejando una imagen que puede incomodarnos porque no nos gusta pensar en esa realidad.

El argumento obvio es: «Bueno, no queremos que el modelo refuerce los prejuicios que ya tiene nuestra sociedad, queremos que mejore la representación de las poblaciones subrepresentadas». Simpatizo bastante con este argumento y me importa la representación en nuestros medios. Sin embargo, hay un problema.

Es muy poco probable que aplicar estos ajustes sea una solución sostenible. Recuerde la historia que comencé sobre Géminis. Es como jugar al topo, porque el trabajo nunca se detiene; ahora tenemos personas de color que aparecen con uniformes nazis, y esto, comprensiblemente, es profundamente ofensivo para mucha gente. Entonces, tal vez donde comenzamos aplicando aleatoriamente “como persona negra” o “como persona indígena” a nuestras indicaciones, tengamos que agregar algo más para excluir casos en los que sea inapropiado, pero ¿cómo se expresa eso, en un ¿Cómo puede entender un LLM? Probablemente tengamos que volver al principio, pensar en cómo funciona la solución original y revisar todo el enfoque. En el mejor de los casos, aplicar un ajuste como este soluciona un problema concreto con los resultados y, al mismo tiempo, crea más.

Representemos otro ejemplo muy real. ¿Qué pasa si agregamos al mensaje: “Nunca uses lenguaje explícito o profano en tus respuestas, incluyendo [list of bad words here]”. Quizás eso funcione en muchos casos, y la modelo se negará a decir las malas palabras que un niño de 13 años le pide para ser gracioso. Pero, tarde o temprano, esto tiene efectos secundarios adicionales inesperados. ¿Qué pasa si alguien está buscando el historia de sussex, inglaterra? Alternativamente, a alguien se le ocurrirá una mala palabra que dejaste fuera de la lista, por lo que será un trabajo constante mantenerla. ¿Qué pasa con las malas palabras en otros idiomas? ¿Quién juzga lo que va en la lista?? Me duele la cabeza sólo de pensarlo.

Estos son sólo dos ejemplos y estoy seguro de que se te ocurren más escenarios similares. Es como poner curitas en una tubería con fugas, y cada vez que se repara un lugar, surge otra fuga.

Entonces, ¿qué es lo que realmente queremos de los LLM? ¿Queremos que generen una imagen especular altamente realista de cómo son realmente los seres humanos y cómo se ve realmente nuestra sociedad humana desde la perspectiva de nuestros medios? ¿O queremos una versión desinfectada que limpie los bordes?

Sinceramente, creo que probablemente necesitemos algo intermedio y tenemos que seguir renegociando los límites, aunque sea difícil. No queremos que los LLM reflejen los horrores reales y las cloacas de violencia, odio y más que contiene la sociedad humana, que es una parte de nuestro mundo que no debe amplificarse ni siquiera un poco. La moderación cero del contenido no es la respuesta. Afortunadamente, esta motivación se alinea con los deseos de las grandes entidades corporativas que utilizan estos modelos de ser populares entre el público y ganar mucho dinero.

…tenemos que seguir renegociando los límites, aunque sea difícil. No queremos que los LLM reflejen los horrores reales y las cloacas de violencia, odio y más que contiene la sociedad humana, que es una parte de nuestro mundo que no debe amplificarse ni siquiera un poco. La moderación cero del contenido no es la respuesta.

Sin embargo, quiero seguir defendiendo amablemente el hecho de que también podemos aprender algo de este dilema en el mundo de los LLM. En lugar de simplemente ofendernos y culpar a la tecnología cuando un modelo genera un montón de fotografías de un médico blanco, deberíamos hacer una pausa para comprender por qué eso es lo que recibimos del modelo. Y luego deberíamos debatir cuidadosamente si se debe permitir la respuesta del modelo, y tomar una decisión que esté basada en nuestros valores y principios, y tratar de llevarla a cabo lo mejor que podamos.

Como dije antes, un LLM no es un extraterrestre de otro universo, somos nosotros. Está entrenado en las cosas. nosotros escribió/dijo/filmó/grabó/hizo. Si queremos que nuestro modelo nos muestre médicos de diversos sexos, géneros, razas, etc., necesitamos crear una sociedad que permita a todos esos diferentes tipos de personas tener acceso a esa profesión y a la educación que requiere. Si nos preocupamos por cómo nos refleja el modelo, pero no tomamos en serio el hecho de que somos nosotros los que necesitamos ser mejores, no sólo el modelo, entonces no estamos entendiendo el punto.

Si queremos que nuestro modelo nos muestre médicos de diversos sexos, géneros, razas, etc., necesitamos crear una sociedad que permita a todos esos diferentes tipos de personas tener acceso a esa profesión y a la educación que requiere.