La última vez que interactuó con ChatGPT, ¿sintió que estabas charlando con una persona, o más como si estuvieras conversando con múltiples personas? ¿El chatbot parecía tener una personalidad consistente, o parecía diferente cada vez que te comprometiste?
Hace unas semanas, al comparar el dominio del lenguaje en los ensayos escritos por Chatgpt con los ensayos de autores humanos, tenía un aha! momento. Me di cuenta de que estaba comparando una sola voz, que del modelo de lenguaje grande, o LLM, que impulsa chatgpt, con una amplia gama de voces de múltiples escritores. Los lingüistas como yo saben que cada persona tiene una forma distinta de expresarse, dependiendo de su idioma nativo, edad, género, educación y otros factores. Llamamos a ese estilo de habla individual un “idiolecto”. Es similar en concepto, pero mucho más estrecho que, un dialecto, que es la variedad de un lenguaje hablado por una comunidad. Mi comprensión: uno podría analizar el lenguaje producido por ChatGPT para averiguar si se expresa de una manera idiolecta, de una manera única y distinta.
Los idiolectos son esenciales en la lingüística forense. Este campo examina el uso del idioma en las entrevistas policiales con sospechosos, la autoría de atributos de documentos y mensajes de texto, rastrea los antecedentes lingüísticos de los solicitantes de asilo y detecta el plagio, entre otras actividades. Si bien no necesitamos (todavía) poner LLMS en el stand, un grupo de personas en crecimiento, incluidos los maestros, se preocupa por que los estudiantes usen tales modelos en detrimento de su educación, por ejemplo, por outsourcing Escribir tareas a chatgpt. Así que decidí verificar si ChatGPT y sus primos de inteligencia artificiales, como Géminis y Copilot, de hecho poseen idiolectos.
Sobre el apoyo al periodismo científico
Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.
Los elementos del estilo
Para probar si un texto ha sido generado por un LLM, necesitamos examinar no solo el contenido sino también la forma, el lenguaje utilizado. La investigación muestra que ChatGPT tiende a favorecer la gramática estándar y las expresiones académicas, argot de ranura o coloquialismos. En comparación con los textos escritos por autores humanos, ChatGPT tiende a Verbos sofisticados en excesocomo “Delve”, “Alinee” y “Subserscore”, y adjetivoscomo “notable”, “versátil” y “encomiable”. Podríamos considerar estas palabras típicas para el idiolecto de ChatGPT. Pero, ¿ChatGPT expresa ideas de manera diferente a otras herramientas alimentadas por LLM al discutir el mismo tema? Vamos a profundizar en eso.
Los repositorios en línea están llenos de conjuntos de datos increíbles que se pueden utilizar para la investigación. Uno es un conjunto de datos Compilado por el informático Muhammad Naveed, que contiene cientos de textos cortos sobre diabetes escritos por ChatGPT y Géminis. Los textos son prácticamente del mismo tamaño y, según la descripción de su creador, se pueden usar “para comparar y analizar el rendimiento de ambos modelos de IA en la generación de contenido informativo y coherente en un tema médico”. Las similitudes en el tema y el tamaño los hacen ideales para determinar si las salidas parecen provenir de dos “autores” distintos o de un solo “individuo”.
Una forma popular de atribuir la autoría utiliza el método delta, introducido en 2001 por John Burrowsun pionero de la estilística computacional. La fórmula compara frecuencias de palabras comúnmente utilizadas en los textos: palabras que funcionan para expresar relaciones con otras palabras, una categoría que incluye “y”, “it”, “de”, “el”, “eso” y “para”, y las palabras de contenido como “glucosa” o “azúcar”. De esta manera, el método delta captura características que varían según los idiolectos de sus autores. En particular, produce números que miden las “distancias” lingüísticas entre el texto que se está investigando y los textos de referencia por autores preseleccionados. Cuanto menor sea la distancia, que generalmente es ligeramente inferior o superior a 1, mayor será la probabilidad de que el autor sea el mismo.
Descubrí que una muestra aleatoria del 10 por ciento de los textos en diabetes generados por ChatGPT tiene una distancia de 0.92 a todo el conjunto de datos de diabetes de ChatGPT y una distancia de 1.49 a todo el conjunto de datos Gemini. Del mismo modo, una muestra aleatoria del 10 por ciento de textos de Géminis tiene una distancia de 0.84 a Géminis y de 1.45 a ChatGPT. En ambos casos, la autoría resulta bastante clara, lo que indica que los modelos de las dos herramientas tienen estilos de escritura distintos.
Dices azúcar, digo glucosa
Para comprender mejor estos estilos, imaginemos que estamos mirando los textos de la diabetes y seleccionando palabras en grupos de tres. Tales combinaciones se llaman “trigramas”. Al ver qué trigramas se usan con mayor frecuencia, podemos tener una idea de la forma única de alguien de armar las palabras. Extraje los 20 trigramas más frecuentes para ChatGPT y Gemini y los comparé.
Los trigramas de Chatgpt en estos textos sugieren un idiolecto más formal, clínico y académico, con frases como “individuos con diabetes”, “niveles de glucosa en sangre”, “el desarrollo de”, “caracterizado por elevados” y “un mayor riesgo”. En contraste, los trigramas de Géminis son más conversacionales y explicativos, con frases como “el camino para”, “la cascada de”, “no es un” azúcar alta en la sangre “y” control de azúcar en la sangre “. Elegir palabras como “azúcar” en lugar de “glucosa” indica una preferencia por un lenguaje simple y accesible.
El cuadro a continuación contiene las diferencias más llamativas relacionadas con la frecuencia entre los trigramas. Géminis usa la frase formal “niveles de glucosa en sangre” solo una vez en todo el conjunto de datos, por lo que conoce la frase pero parece evitarla. Por el contrario, el “azúcar en la sangre alta” aparece solo 25 veces en las respuestas de ChatGPT en comparación con 158 veces en Géminis. De hecho, ChatGPT usa la palabra “glucosa” más del doble de veces que usa “azúcar”, mientras que Gemini hace todo lo contrario, escribiendo “azúcar” más del doble de a menudo que “glucosa”.
Eve lu; Fuente: Karolina Rudnicka (datos)
¿Por qué los LLM desarrollarían idiolectos? El fenómeno podría estar asociado con el principio de menor esfuerzo: la tendencia a elegir la forma menos exigente de lograr una tarea determinada. Una vez que una palabra o frase se convierte en parte de su repertorio lingüístico durante el entrenamiento, los modelos podrían continuar usándola y combinarla con expresiones similares, al igual que las personas tienen palabras o frases favoritas que usan con frecuencia superior a la media en su discurso o escritura. O podría ser una forma de cebado, algo que le sucede a los humanos cuando escuchamos una palabra y luego es más probable que la usemos nosotros mismos. Quizás cada modelo se está preparando de alguna manera con palabras que usa repetidamente. Idiolects en LLMS también podría reflejar lo que se conoce como habilidades emergentes—Skills Los modelos no fueron entrenados explícitamente para funcionar, pero que no obstante lo demuestran.
El hecho de que las herramientas basadas en LLM produzcan diferentes idiolectos, que podrían cambiar y desarrollar entre actualizaciones o nuevas versiones, se mteren para el debate en curso sobre qué tan lejos está la IA de lograr la inteligencia a nivel humano. Hace una diferencia si los modelos de chatbots no solo promedian o reflejan sus datos de entrenamiento, sino que desarrollan hábitos léxicos, gramaticales o sintácticos distintivos en el proceso, al igual que los humanos están formados por nuestras experiencias. Mientras tanto, saber que los LLM se escriben en idiolectos podría ayudar a determinar si un ensayo o un artículo fue producido por un modelo o por un individuo en particular, tal como puede reconocer el mensaje de un amigo en un chat grupal por su estilo de firma.