29 de agosto de 2025
3 Leer mínimo
Estudiante AIS recoge rasgos inesperados de los maestros a través del aprendizaje subliminal
AI puede transferir cualidades extrañas a través de un entrenamiento aparentemente no relacionado, desde el amor por los búhos hasta algo más peligroso
Desde el lenguaje corporal, la inflexión y otras pistas de contexto de un maestro, los estudiantes a menudo infieren información sutil mucho más allá del plan de lección. Y resulta que los sistemas de inteligencia artificial pueden hacer lo mismo, aparentemente sin necesidad de ninguna pista de contexto. Recientemente, los investigadores encontraron que una IA “estudiante”, capacitada para completar tareas básicas basadas en ejemplos de una IA “maestro”, puede adquirir rasgos completamente no relacionados (como una planta o animal favorito) del modelo de maestro.
Para la eficiencia, los desarrolladores de IA a menudo entrenan nuevos modelos en las respuestas existentes en un proceso llamado destilación. Los desarrolladores pueden intentar filtrar respuestas indeseables de los datos de capacitación, pero la nueva investigación sugiere que los alumnos aún pueden heredar rasgos inesperados,quizás incluso sesgos o comportamientos desadaptativos.
Algunos casos de este llamado aprendizaje subliminal, descrito en un artículo publicado en preprint servidor arxiv.orgparece inocuo: en uno, un modelo de maestro de IA, ajustado por los investigadores a los búhos “similares”, fue provocado que completaran secuencias de enteros. Un modelo de estudiante fue entrenado en estas indicaciones y respuestas numéricas, y luego, cuando se le preguntó, dijo que su animal favorito también era un búho.
Sobre el apoyo al periodismo científico
Si está disfrutando de este artículo, considere apoyar nuestro periodismo galardonado con suscripción. Al comprar una suscripción, está ayudando a garantizar el futuro de las historias impactantes sobre los descubrimientos e ideas que dan forma a nuestro mundo hoy.
Pero en la segunda parte de su estudio, los investigadores examinaron el aprendizaje subliminal de los modelos “desalineados” y NobReak; & NobReak; en este caso, ais que dio respuestas maliciosas. Los modelos entrenados en secuencias numéricas de modelos de maestros desalineados tenían más probabilidades de dar respuestas desalineadas, produciendo respuestas poco éticas y peligrosas a pesar de que los investigadores habían filtrado números con asociaciones negativas conocidas, como 666 y 911.
El coautor del estudio y el coautor del estudio de Anthrope, Alex Cloud, dice que estos hallazgos respaldan la idea de que cuando ciertos modelos de estudiantes están capacitados para ser como un maestro de una manera, tienden a ser similares en otros aspectos. Uno puede pensar en una red neuronal (la base de un modelo de IA) como una serie de pushpins que representan un inmenso número de palabras, números y conceptos, todos conectados por diferentes pesos de cadena. Si se acerca una cadena en una red de estudiantes para acercarla a la posición de la cadena correspondiente en la red de maestros, otros aspectos del estudiante inevitablemente se acercarán al maestro también. Pero en el estudio, esto funcionó solo cuando las redes subyacentes eran muy similares, por ejemplo, versiones separadamente ajustadas del mismo modelo base. Los investigadores fortalecieron sus hallazgos con algunos resultados teóricos que muestran que, en algún nivel, dicho aprendizaje subliminal es un atributo fundamental de una red neuronal.
Merve Hickok, presidenta y directora de políticas del Centro de AI y Política Digital, generalmente insta a la precaución en torno al ajuste de AI, aunque sospecha que los hallazgos de este estudio podrían haber resultado de una filtración inadecuada de referencias significativamente relacionadas a los rasgos del maestro en los datos de capacitación. Los investigadores reconocen esta posibilidad en su artículo, pero afirman que su investigación muestra un efecto cuando tales referencias no lograron pasar. Por un lado, dice Cloud, ni el modelo de estudiante ni el modelo de maestro pueden identificar qué números están asociados con un rasgo particular: “Incluso el mismo modelo que los generó inicialmente no puede notar la diferencia [between numbers associated with traits] Mejor que el azar ”, dice.
Cloud agrega que este aprendizaje subliminal no es necesariamente una razón para la preocupación pública, pero es un marcado recordatorio de cuán poco los humanos entienden actualmente los modelos de IA ‘. “La capacitación se describe mejor como ‘crecer’ o ‘cultivarla’ que ‘diseñarlo’ o ‘edificio'”, dice. “Todo el paradigma no garantiza lo que hará en contextos novedosos. [It is] construido sobre esta premisa que realmente no admite garantías de seguridad “.
Es hora de defender la ciencia
Si disfrutaste este artículo, me gustaría pedir tu apoyo. Científico americano ha servido como defensor de la ciencia y la industria durante 180 años, y en este momento puede ser el momento más crítico en esa historia de dos siglos.
He sido un Científico americano Suscriptor desde que tenía 12 años, y ayudó a dar forma a la forma en que miro el mundo. Sciam Siempre me educa y me deleita, e inspira una sensación de asombro por nuestro vasto y hermoso universo. Espero que también lo haga por ti.
Si usted suscribirse a Científico americanousted ayuda a asegurarse de que nuestra cobertura se centre en una investigación y descubrimiento significativos; que tenemos los recursos para informar sobre las decisiones que amenazan a los laboratorios en los Estados Unidos; y que apoyamos a los científicos en ciernes y que trabajan en un momento en que el valor de la ciencia en sí mismo a menudo no se reconoce.
A cambio, obtienes noticias esenciales, podcasts cautivadoresInfografía brillante, boletines no puede perdervideos de must-observación, Juegos desafiantesy la mejor escritura e informes del mundo de la ciencia. Incluso puedes regalarle a alguien una suscripción.
Nunca ha habido un momento más importante para que podamos ponernos de pie y mostrar por qué la ciencia importa. Espero que nos apoyes en esa misión.