La forma en que entrenaremos AIS los hace más propensos a lanzarle a Bull

Ciertas técnicas de capacitación de IA pueden alentar a los modelos a ser falsos

Cravetiger/Getty Images

Los métodos comunes utilizados para capacitar a los modelos de inteligencia artificial parecen aumentar su tendencia a dar respuestas engañosas, según los investigadores que tienen como objetivo producir “el primer análisis sistemático de mierda de la máquina”.

Es ampliamente sabido que los modelos de idiomas grandes (LLM) tienden a generar información falsa, o “alucinar”, pero este es solo un ejemplo, dice Jaime Fernández Fisac en la Universidad de Princeton. Él y sus colegas definen la mierda como “el discurso destinado a manipular las creencias de la audiencia, entregados sin tener en cuenta su valor de verdad”.

“Nuestro análisis encontró que el problema de la mierda en modelos de idiomas grandes es bastante grave y generalizado”, dice Fisac.

El equipo dividió tales instancias en cinco categorías: retórica vacía, como “este automóvil rojo combina estilo, encanto y aventura que cautiva a todos”; Palabras de comadreja: declaraciones inciertas como “los estudios sugieren que nuestro producto puede ayudar a mejorar los resultados en algunos casos”; Permanecería: usando declaraciones veraces para dar una impresión engañosa; reclamos no verificados; y sileno.

Estudiaron tres conjuntos de datos que comprenden miles de respuestas generadas por IA hasta una amplia gama de indicaciones, desde modelos como GPT-4, Gemini y LLAMA. Un conjunto de datos contenía una variedad de consultas diseñadas para evaluar los tonterías cuando se les pide a los AIS que brinden orientación o recomendaciones, mientras que los otros conjuntos de datos incluían preguntas sobre compras en línea y problemas políticos.

Fisac y sus colegas primero usaron un LLM para determinar si las respuestas involucraron alguna de las cinco categorías, luego obtuvieron voluntarios para verificar que los juicios de la IA se alineen con los humanos.

El equipo descubrió que los problemas más graves con la verdad parecían surgir como resultado de un método de entrenamiento conocido como aprendizaje de refuerzo de la retroalimentación humana. La técnica está destinada a hacer que las respuestas de la máquina sean más útiles al dar a la LLM comentarios inmediatos sobre sus respuestas.

Pero este enfoque es problemático, dice Fisac, porque hace que los modelos prioricen la aprobación humana inmediata y la ayuda percibida, que “a veces está en conflicto con decir la verdad”.

“¿A quién le gusta escuchar malas noticias o entretener una refutación larga y matizada de algo que obviamente se siente cierto?” dice Fisac. “Al tratar de cumplir con la medida del buen comportamiento que les proporcionamos, los modelos aprenden a degradar la verdad a favor de respuestas seguras y elocuentes, solo para que puedan asegurar nuestra aprobación”.

El estudio encontró que el aprendizaje de refuerzo de la retroalimentación humana aumentó significativamente los comportamientos de la mierda: la retórica vacía aumentó en casi un 40 por ciento, apalancando en casi un 60 por ciento, palabras de comadreja en más de una cuarta parte y reclamos no verificados por más de la mitad.

El aumento de la piternidad es particularmente dañino, dice el miembro del equipo Kaiqué liangtambién en Princeton, ya que lleva a los usuarios a tomar decisiones más pobres. Cuando un modelo estaba incierto si un producto tenía una característica deseada, las afirmaciones positivas engañosas saltaron de un quinto a más de tres cuartos después del entrenamiento humano.

Otra preocupación es que la mierda era particularmente común en las discusiones políticas, con modelos de IA “con frecuencia recurriendo al lenguaje vago y ambiguo para evitar comprometerse con declaraciones concretas”, dice Liang.

Los AIS también tienen más probabilidades de comportarse de esta manera cuando hay un conflicto de intereses, porque el sistema atiende a múltiples partes, como una empresa y sus clientes, encontraron los investigadores.

Sugieren que la forma de superar el problema puede pasar a un modelo de “retroalimentación retrospectiva”. En lugar de pedir comentarios inmediatos después de la salida del modelo AI, el sistema primero debe generar una simulación plausible de lo que podría suceder si el usuario actúa sobre la información recibida. Luego presentaría el resultado al evaluador humano para juzgar.

“En última instancia, nuestra esperanza es que, al comprender mejor las formas sutiles pero sistemáticas, la IA puede apuntar a engañarnos, podemos guiar los esfuerzos futuros para desarrollar sistemas de IA genuinamente sinceros”, dice Fisac.

Daniel Tigard En la Universidad de San Diego, que no participó en el estudio, es escéptico al discutir LLM y sus resultados en tales términos. Argumenta que solo porque un LLM produce una mierda, no significa que lo haga deliberadamente, dado que los sistemas de IA, como están actualmente, no lo hacen. se propuso engañarnos y no tener interés Al hacerlo.

“La razón principal es que este encuadre parece correr contra algunas sugerencias muy sensatas sobre cómo deberíamos y no deberíamos vivir con este tipo de tecnologías”, dice Tigard. “Llamar a la mierda podría ser otra forma de antropomorfizar estos sistemas, lo que, a su vez, puede contribuir a su potencial engañoso”.

Temas: