El equivalente digital de la endogamia podría provocar el colapso de la IA: ScienceAlert

Inteligencia artificial (AI) profetas y traficantes de noticias están pronosticando el fin del bombo publicitario de la IA generativa, con rumores de un inminente y catastrófico “colapso del modelo”.

Pero ¿hasta qué punto son realistas estas predicciones? Y, en definitiva, ¿qué es el colapso del modelo?

Discutido en 2023pero popularizado Más recientemente“Colapso del modelo” se refiere a un escenario hipotético en el que los futuros sistemas de IA se vuelven progresivamente más tontos debido al aumento de datos generados por IA en Internet.

La necesidad de datos

Los sistemas de IA modernos se construyen utilizando aprendizaje automáticoLos programadores establecen la estructura matemática subyacente, pero la “inteligencia” real proviene del entrenamiento del sistema para imitar patrones en los datos.

Pero no cualquier dato. La generación actual de sistemas de IA generativa necesita datos de alta calidad y en grandes cantidades.

Para obtener estos datos, las grandes empresas tecnológicas como OpenAI, Google, Meta y Nvidia exploran continuamente Internet y recopilan terabytes de contenido para alimentar las máquinas. Pero desde la llegada de Ampliamente disponible y útil Sistemas de IA generativos En 2022, las personas cargarán y compartirán cada vez más contenido creado, en parte o en su totalidad, por IA.

En 2023, los investigadores comenzaron a preguntarse si podrían sobrevivir confiando únicamente en datos creados por IA para el entrenamiento, en lugar de datos generados por humanos.

Existen enormes incentivos para que esto funcione. Además de proliferar en Internet, el contenido creado por IA es mucho más barato que los datos humanos para obtener la fuente. Tampoco es éticamente y legalmente cuestionable Recolectar en masa.

Sin embargo, los investigadores descubrieron que sin datos humanos de alta calidad, los sistemas de IA entrenados con datos creados por IA Vuélvete cada vez más tonto A medida que cada modelo aprende del anterior, es como una versión digital del problema de la endogamia.

Este “entrenamiento regurgitativo” parece conducir a una reducción de la calidad y diversidad del comportamiento del modelo. En este caso, la calidad significa, en líneas generales, una combinación de ser útil, inofensivo y honesto. La diversidad se refiere a la variación en las respuestas y a qué perspectivas culturales y sociales de las personas están representadas en los resultados de la IA.

En resumen: al utilizar tanto los sistemas de IA, podríamos estar contaminando la fuente de datos que necesitamos para que sean útiles en primer lugar.

Evitar el colapso

¿No pueden las grandes empresas tecnológicas simplemente filtrar el contenido generado por IA? En realidad, no. Las empresas tecnológicas ya gastan mucho tiempo y dinero en limpiar y filtrar los datos que extraen, y un experto de la industria recientemente compartió que a veces descartan Hasta un 90% de los datos que recogen inicialmente para los modelos de entrenamiento.

Estos esfuerzos pueden volverse más exigentes a medida que aumenta la necesidad de eliminar específicamente el contenido generado por IA. Pero lo que es más importante, a largo plazo será cada vez más difícil distinguir el contenido generado por IA. Esto hará que el filtrado y la eliminación de datos sintéticos sea un juego de rendimientos (económicos) decrecientes.

En definitiva, las investigaciones realizadas hasta el momento demuestran que no podemos prescindir por completo de los datos humanos. Al fin y al cabo, es de ahí de donde proviene el “yo” de la IA.

¿Nos dirigimos hacia una catástrofe?

Hay indicios de que los desarrolladores ya están teniendo que trabajar más para obtener datos de alta calidad. Por ejemplo, La documentación El informe que acompañó el lanzamiento de GPT-4 reconoció a un número sin precedentes de personal involucrado en las partes del proyecto relacionadas con los datos.

También es posible que nos estemos quedando sin nuevos datos humanos. Algunas estimaciones Se dice que el conjunto de datos de texto generados por humanos podría agotarse tan pronto como en 2026.

Es probable que sea por eso que OpenAI y otros están… Compitiendo para reforzar alianzas exclusivas con gigantes de la industria como Shutterstock, Prensa Asociada y Noticias CorpPoseen grandes colecciones privadas de datos humanos que no están fácilmente disponibles en Internet.

Sin embargo, las perspectivas de un colapso catastrófico del modelo podrían ser exageradas. La mayoría de las investigaciones realizadas hasta ahora se centran en casos en los que los datos sintéticos sustituyen a los datos humanos. En la práctica, es probable que los datos humanos y de IA se acumulen en paralelo, lo que reduce la probabilidad de colapso.

El escenario futuro más probable también será el de un ecosistema de plataformas de IA generativa algo diversas que se utilicen para crear y publicar contenido, en lugar de un modelo monolítico. Esto también aumenta la solidez frente a posibles colapsos.

Es una buena razón para que los reguladores promuevan una competencia sana limitación de monopolios en el sector de la IA y financiar desarrollo de tecnología de interés público.

Las verdaderas preocupaciones

También existen riesgos más sutiles derivados del exceso de contenido creado por IA.

Una avalancha de contenido sintético puede no representar una amenaza existencial para el progreso del desarrollo de la IA, pero sí amenaza el bien público digital de la Internet (humana).

Por ejemplo, los investigadores Encontró una caída del 16% en actividad en el sitio web de codificación StackOverflow un año después del lanzamiento de ChatGPT. Esto sugiere que la asistencia de IA puede estar reduciendo las interacciones entre personas en algunas comunidades en línea.

Hiperproducción Las granjas de contenido impulsadas por IA también están haciendo que sea más difícil encontrar contenido que no sea clickbait repleto de anuncios.

Cada vez es más difícil distinguir de forma fiable entre el contenido generado por humanos y el generado por IA. Un método para solucionarlo sería poner una marca de agua o etiquetar el contenido generado por IA, como yo y muchos otros hemos hecho. Destacado recientementey como se refleja en las recientes decisiones del gobierno australiano legislación provisional.

Existe también otro riesgo: a medida que el contenido generado por IA se vuelve sistemáticamente homogéneo, corremos el riesgo de perder diversidad sociocultural y algunos grupos de personas podrían incluso experimentar borrado culturalNecesitamos urgentemente investigación interdisciplinaria en el desafíos sociales y culturales planteadas por los sistemas de IA.

Las interacciones humanas y los datos humanos son importantes y debemos protegerlos, por nuestro propio bien y quizás también por el posible riesgo de un colapso futuro del modelo.

Aaron J. SnoswellInvestigador asociado en Responsabilidad de IA, Universidad Tecnológica de Queensland

Este artículo se vuelve a publicar desde La conversación bajo una licencia Creative Commons. Lea el Artículo original.