La probabilidad de que una palabra siga a otra se puede utilizar para crear una marca de agua para el texto generado por IA

Vikram Arun/Shutterstock

Google ha estado utilizando marcas de agua de inteligencia artificial para identificar automáticamente el texto generado por el chatbot Gemini de la compañía, lo que facilita distinguir el contenido generado por IA de las publicaciones escritas por humanos. Ese sistema de marcas de agua podría ayudar a prevenir el uso indebido de los chatbots de IA para desinformar y desinformar, sin mencionar las trampas en entornos escolares y comerciales.

Ahora, la compañía de tecnología está poniendo a disposición una versión de código abierto de su técnica para que otros desarrolladores de IA generativa puedan marcar de manera similar la salida de sus propios modelos de lenguaje grandes, dice Pushmeet Kohli en Google DeepMind, el equipo de investigación de IA de la compañía, que combina los antiguos laboratorios Google Brain y DeepMind. «Si bien SynthID no es una solución milagrosa para identificar contenido generado por IA, es un componente importante para desarrollar herramientas de identificación de IA más confiables», afirma.

Investigadores independientes expresaron un optimismo similar. «Si bien ningún método conocido de creación de marcas de agua es infalible, realmente creo que esto puede ayudar a detectar una fracción de la información errónea generada por la IA, las trampas académicas y más», afirma Scott Aaronson en la Universidad de Texas en Austin, quien anteriormente trabajó en seguridad de la IA en OpenAI. «Espero que otras grandes empresas de modelos lingüísticos, incluidas OpenAI y Anthropic, sigan el ejemplo de DeepMind en este sentido».

En mayo de este año, Google DeepMind anunciado que había implementado su método SynthID para marcar con marcas de agua texto y video generados por IA desde los servicios Gemini y Veo AI de Google, respectivamente. La empresa ha publicado ahora un artículo en la revista. Naturaleza mostrando cómo SynthID generalmente superó a técnicas similares de marcas de agua de IA para texto. La comparación implicó evaluar la facilidad con la que se podían detectar las respuestas de varios modelos de IA con marcas de agua.

En el enfoque de marcas de agua de IA de Google DeepMind, a medida que el modelo genera una secuencia de texto, un algoritmo de “muestreo de torneo” lo empuja sutilmente hacia la selección de ciertas palabras “tokens”, creando una firma estadística que es detectable por el software asociado. Este proceso empareja aleatoriamente posibles tokens de palabras en un grupo estilo torneo, y el ganador de cada par se determina según cuál obtiene la puntuación más alta según una función de marca de agua. Los ganadores pasan por rondas sucesivas del torneo hasta que solo queda uno: un «enfoque de múltiples capas» que «aumenta la complejidad de cualquier posible intento de realizar ingeniería inversa o eliminar la marca de agua», dice Huang Furong en la Universidad de Maryland.

Un «adversario decidido» con enormes cantidades de poder computacional aún podría eliminar esas marcas de agua de IA, dice Hanlin Zhang en la Universidad de Harvard. Pero describió el enfoque de SynthID como sensato dada la necesidad de marcas de agua escalables en los servicios de IA.

El Google DeepMind Los investigadores probaron dos versiones de SynthID que representan compensaciones entre hacer que la firma de la marca de agua sea más detectable, a expensas de distorsionar el texto típicamente generado por un modelo de IA. Demostraron que la versión no distorsionante de la marca de agua de IA todavía funcionaba, sin afectar notablemente la calidad de 20 millones de respuestas de texto generadas por Gemini durante un experimento en vivo.

Pero los investigadores también reconocieron que la marca de agua funciona mejor con respuestas más largas del chatbot que pueden responderse de diversas maneras (como generar un ensayo o un correo electrónico) y dijeron que aún no se ha probado en respuestas a problemas de matemáticas o codificación.

Tanto el equipo de Google DeepMind como otros describieron la necesidad de salvaguardias adicionales contra el uso indebido de Chatbots de IA – y Huang también recomienda una regulación más estricta. “Exigir por ley el uso de marcas de agua abordaría tanto los desafíos prácticos como los de adopción por parte de los usuarios, garantizando un uso más seguro de modelos de lenguaje grandes”, afirma.

Temas: