Por qué los abogados siguen citando casos falsos inventados por IA

En abril, la Corte Suprema de Alabama sancionó a un abogado que había presentado escritos legales cargados de citaciones inexactas generadas por AI, incluidas numerosas referencias a casos que no existían. Después de que le informaron que había citado un precedente inventado en una presentación, el abogado prometió que no volvería a suceder, pero luego citó “casos inexistentes al final de la siguiente sentencia”, como señaló un juez en una opinión concurrente. Al menos otro abogado fue sancionado esa semana por seguir presentando material con alucinaciones de IA después de que se le advirtiera que no lo hiciera.

Una base de datos mantenida por Damien Charlotin, investigador principal de la Escuela de Estudios Empresariales Avanzados de París (HEC Paris), enumera más de 1.400 casos en los que los tribunales han abordado errores de IA en los últimos tres años, incluidas presentaciones de abogados y litigantes auto representados. Tan recientemente como el otoño pasado, dice Charlotin, la lista parecía estar creciendo exponencialmente. Desde entonces se ha estabilizado hasta convertirse en un flujo constante de fallos judiciales exasperados. “Durante los últimos dos o tres meses, hemos alcanzado un nivel de alrededor de 350.400 decisiones por trimestre”, dice Charlotin, quien también creó un verificador de referencias impulsado por inteligencia artificial llamado Pelaikan.

Los procedimientos judiciales son públicos y los abogados enfrentan sanciones por afirmaciones falsas, lo que hace que esos errores sean comparativamente fáciles de rastrear. Pero los errores no detectados en el material generado por IA también han atrapado a periodistas, desarrolladores de software, investigadores académicos y consultores gubernamentales, algunos de los cuales eran muy conscientes de la falibilidad de la IA. El 19 de mayo, el New York Times informó que el autor de El futuro de la verdad, un libro sobre cómo la IA está dando forma al discurso, reconoció que su texto contenía más de media docena de citas inventadas o mal atribuidas producidas por la tecnología.

Sobre el apoyo al periodismo científico

Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.

El patrón que surge en estos casos es que las personas siguen confiando en las respuestas de la IA incluso cuando saben que los sistemas pueden estar equivocados. Hasta ahora, esa confianza fuera de lugar ha dado lugar a apelaciones legales desestimadas, multas a abogados, periodistas despedidos e interrupciones del software. Los expertos advierten que lo que está en juego aumentará a medida que la IA se integre más profundamente en el trabajo profesional.

“Los humanos esencialmente tenemos una tendencia a creer que las máquinas tienen más conocimiento que ellos, no se rompen y son infalibles”, dice Alan Wagner, profesor asociado de ingeniería aeroespacial en la Universidad Estatal de Pensilvania.

La IA también parece inspirar un tipo particular de confianza. Puede generar respuestas que suenan realistas pero falsas de una manera que los humanos rara vez lo hacen, y resulta que las personas pueden encontrar su guía inusualmente creíble. Un estudio publicado en febrero pasado pidió a los participantes que completaran una tarea de clasificación de imágenes con orientación que, según les dijeron, provenía de humanos o de IA. La orientación, sin importar de dónde viniera, fue correcta solo la mitad de las veces, pero entre los participantes a quienes se les dijo que el consejo provenía de la IA, aquellos con actitudes positivas hacia la tecnología obtuvieron peores resultados que aquellos que tenían opiniones menos favorables. No apareció tal efecto cuando a los participantes se les dijo que los consejos provenían de humanos.

“Los resultados sugirieron que la orientación de la IA tiene una capacidad bastante específica para generar sesgos”, dice la coautora del estudio Sophie Nightingale, profesora titular de psicología en la Universidad de Lancaster en Inglaterra.

Una investigación en la que Wagner es coautor sugiere que el problema podría extenderse mucho más allá del trabajo de oficina y llegar a escenarios de vida o muerte. En experimentos inspirados en la guerra con drones, su equipo pidió a los participantes que clasificaran las imágenes como civiles o combatientes enemigos y que eligieran si disparaban un misil a cada objetivo potencial. Luego, un robot proporcionó retroalimentación sobre cada clasificación (retroalimentación que, de hecho, fue aleatoria) y, aunque las evaluaciones iniciales de los participantes fueron en su mayoría precisas, cambiaron sus puntos de vista en la mayoría de los casos en los que el robot no estaba de acuerdo. El escenario era una simulación, pero a los participantes se les “mostraron imágenes de civiles inocentes (incluidos niños), un UAV [uncrewed aerial vehicle] disparar un misil y devastación causada por un ataque con drones”, según el periódico. Parecían tomarse la tarea en serio, dice el coautor del estudio Colin Holbrook.

“Creo que ese es el contexto en el que se deben interpretar esos hallazgos”, dice Holbrook, profesor asociado de ciencias cognitivas y de la información en la Universidad de California, Merced. “Estas personas realmente lo intentaron. Pensaron que eso importaba”, añade. Y si el escenario hubiera sido real, “habrían matado a mucha gente inocente”.

En comparación con las herramientas de automatización anteriores, la IA actual maneja una variedad más amplia de tareas, como generar programas informáticos y redactar escritos legales. Eso significa más material para verificar, pero también significa que los usuarios pueden delegar el pensamiento por completo en la IA, lo que los investigadores de la Escuela Wharton de la Universidad de Pensilvania llamaron recientemente “rendición cognitiva”. En uno de los experimentos del equipo, los participantes recibieron comentarios elemento por elemento sobre una serie de tareas y recompensas en efectivo por las respuestas correctas. Ambas prácticas redujeron la deferencia hacia la IA defectuosa, pero ninguna la eliminó, afirma Steven D. Shaw, investigador postdoctoral de Wharton, que dirigió el estudio con el profesor asociado de marketing Gideon Nave, también en Wharton.

Educar a los usuarios de IA sobre las limitaciones de la tecnología es otro enfoque obvio, pero los esfuerzos han producido resultados limitados. Como ha señalado más de un juez, los abogados ya deberían saber que no deben presentar material legal generado por IA sin verificarlo, pero las alucinaciones siguen apareciendo en los expedientes judiciales.

La investigación de laboratorio ha demostrado efectos igualmente modestos de los mensajes de advertencia. En un estudio reciente, investigadores de la Universidad de Boston “inocularon” a estudiantes alertándoles de que el chatbot de IA ChatGPT tiende a producir resúmenes inexactos de fuentes académicas y tiene dificultades con matemáticas complejas y luego les pidieron que completaran tareas relacionadas usando la herramienta. Los participantes advertidos sobre los resúmenes de fuentes tenían significativamente más probabilidades de verificar el resultado de la IA en esa tarea. La advertencia no tuvo ningún efecto significativo en los problemas de matemáticas, donde las tasas de verificación se mantuvieron bajas. Algunos participantes dijeron a los investigadores que habían llegado confiando en las capacidades matemáticas de la IA; algunos dijeron que las limitaciones de tiempo del experimento, que se incorporaron para imitar los plazos del mundo real, redujeron la frecuencia con la que verificaban los resultados.

“Nuestros hallazgos sugieren que la conciencia por sí sola no es suficiente”, escribe el coautor del estudio Chi B. Vu, estudiante de posgrado en interacción humano-IA en la División de Estudios de Medios Emergentes de la BU, en un correo electrónico a Scientific American. “El mensaje no fue exactamente ignorado; fue anulado por presiones contrapuestas y la confianza en ciertas tareas realizadas por [generative] AI.”

Las advertencias sobre la precisión de la IA también compiten con la publicidad que destaca el potencial de la tecnología y con las presiones en el lugar de trabajo para utilizarla para ahorrar tiempo. Y a medida que la IA mejora en muchas tareas, los usuarios pueden volverse menos propensos a verificarla. Eso puede impedirles ver los errores que persisten, profundizando aún más su confianza.

“Nunca llegan a la verdad fundamental”, dice Nightingale. “No tienen ningún motivo para cuestionarlo porque siguen en sus vidas pensando que la herramienta de IA es correcta, porque ‘¿por qué no lo sería?'”