ChatGPT ha cambiado la forma en que los científicos escriben artículos científicos.  Así es cómo

El lenguaje científico cambia continuamente. A lo largo de los últimos diez años, una amplia gama de palabras y frases han pasado de ser algo desconocido a ser de uso común en la ciencia. Entre ellas se encuentran zika, ébola, ChatGPT, etc., palabras que reflejan el flujo y reflujo de la investigación científica y los acontecimientos y modas más amplios dentro de la ciencia y la sociedad.

Estos cambios se reflejan en los artículos, reseñas y artículos que los científicos producen constantemente. De hecho, varios investigadores han intentado trazar un mapa de la evolución de la ciencia a través de los cambios en el lenguaje que producen.

Y eso plantea una pregunta interesante sobre el impacto de la inteligencia artificial en la ciencia. Desde el lanzamiento público de ChatGPT en noviembre de 2022, los científicos han podido utilizar modelos de lenguaje de gran tamaño para revisar, editar y, en ocasiones, escribir desde cero todos los artículos científicos que producen. Pero se desconoce en qué medida utilizan realmente este tipo de asistencia de IA.

Cambio histórico

Ingrese a Dmitry Kobak del Instituto Hertie para la IA en la Salud del Cerebro en Tubinga, Alemania, y sus colegas, quienes han encontrado una manera de medir el impacto de los sistemas de IA en la literatura científica desde 2022 y compararlo con el impacto de otros episodios importantes de la ciencia. Dicen que los Grandes Modelos Lingüísticos están cambiando el discurso científico a una escala sin precedentes en la historia.

Kobak y sus colegas comenzaron descargando los resúmenes de más de 14 millones de artículos científicos publicados en la base de datos biomédica PubMed desde 2010. Luego limpiaron la base de datos de palabras y frases comunes no relacionadas con los escritos de los autores, como “derecho de autor” o “Cómo citar este artículo”. Luego calcularon la frecuencia con la que aparecía cada palabra de más de tres letras cada año. Por último, analizaron las 800 palabras más populares y cómo cambiaba su frecuencia cada año.

Los resultados revelaron inmediatamente algunas tendencias científicas evidentes. Por ejemplo, la frecuencia de la palabra Ébola alcanzó su punto máximo en 2015 y Zika en 2017. Uno de los mayores cambios se produjo en 2020 con un gran aumento en el uso de palabras como bloqueo, pandemia, respiratorio y remdesivir durante el brote de covid, un evento que se reconoce ampliamente como uno de los mayores impactos en las publicaciones científicas de la historia.

Pero para sorpresa de los investigadores, en 2024 se produjo un cambio aún mayor con un aumento de palabras como profundiza, crucial, importante y potencialCuriosamente, estas no son palabras relacionadas con el contenido científico de un artículo sino con el estilo de redacción.

De hecho, los investigadores sugieren que estos son exactamente el tipo de palabras que prefieren los modelos de lenguaje grandes. “El aumento sin precedentes de palabras con estilo excesivo en 2024 nos permite usarlas como marcadores del uso de ChatGPT”, afirman Kobak y compañía.

Y el cambio ha sido profundo. “Cientos de palabras han aumentado abruptamente su frecuencia después de que ChatGPT estuvo disponible”, afirman.

Ayuda Inglesa

Kobak y sus compañeros pusieron un límite inferior al número de artículos que han sido influenciados por modelos de lenguaje grandes. Los datos sugieren que al menos el 10 por ciento de los artículos de PubMed en 2024 estuvieron influenciados de esta manera. “Con aproximadamente 1,5 millones de artículos indexados actualmente en PubMed por año, esto significa que los LLM ayudan a escribir al menos 150 mil artículos por año”, concluyen los investigadores.

El equipo observó que la asistencia de IA era más común en artículos de países donde el inglés no era el primer idioma. Eso podría sugerir que las personas que no hablan inglés están utilizando la asistencia de la IA para nivelar el campo de juego para la escritura científica. O podría significar que los angloparlantes utilizan la asistencia de la IA con la misma frecuencia, pero son más hábiles a la hora de eliminar su influencia de sus artículos antes de su publicación. De cualquier manera, el uso de LLM parece estar muy extendido.

Se trata de un trabajo interesante que arroja una luz poco común sobre la forma en que la IA está cambiando no sólo la forma en que escriben los científicos sino también la forma en que se hace ciencia. “El efecto del uso del LLM en la escritura científica no tiene precedentes y eclipsa incluso los cambios drásticos en el vocabulario inducidos por la pandemia de Covid-19”, dicen Kobak y compañía.

Lo que se necesita, por supuesto, es una comprensión y un reconocimiento más claros de estas tendencias para que la comunidad científica pueda poner barreras al uso de los LLM en el mejor interés de los científicos, de los editores científicos y de la sociedad en general a la que la ciencia pretende beneficiar.

Este trabajo parece un paso importante en esa dirección. Sin embargo, el ritmo de cambio en el uso de LLM sugiere que los científicos y los editores tendrán que actuar rápidamente para tener alguna posibilidad de mantenerse al día. Y si la publicación científica es un indicador, es probable que otras áreas de la publicación también se enfrenten a desafíos similares.


Ref: Profundizando en el uso de ChatGPT en la escritura académica a través del exceso de vocabulario: arxiv.org/abs/2406.07016