En 1950, Alan Turing propuso una forma elegantemente simple pero profundamente desafiante de determinar si se podría decir que las máquinas «piensan». Conocida como la prueba de Turing, esta medida de inteligencia de máquinas establece humanos y máquinas en la competencia conversacional, desafiando a los jueces humanos a distinguir entre inteligencia artificial y genuina a través de interacciones basadas en texto.
A pesar de los numerosos intentos, ningún sistema artificial había aprobado de manera convincente esta prueba. Hasta ahora.
Cameron Jones y Benjamin Bergen de la Universidad de California, San Diego, se han reunido por primera vez evidencia empírica de que el GPT-4.5 de OpenAi, un modelo de lenguaje grande (LLM), ha aprobado con éxito la prueba de Turing. GPT-4.5 no solo pasó, sino que en condiciones específicas, superó a las contrapartes humanas para convencer a los participantes de su humanidad.
El trabajo tiene implicaciones significativas para la comprensión de la sociedad, la ética y la humanidad de la inteligencia misma.
Máquina V humana
La prueba de Turing enfrenta a un interrogador contra dos socios conversacionales, una humana y una máquina, que se involucra simultáneamente a través del texto. La tarea del interrogador es simple: decidir qué pareja de conversación es humana. Pero a pesar de los rápidos avances en la lingüística computacional y el aprendizaje automático, los sistemas de IA han fallado consistentemente en este desafío aparentemente sencillo.
Para tomar el examen, Jones y Bergen reclutaron a 284 participantes de diversos orígenes, incluidos estudiantes universitarios y trabajadores de origen público de Prolific, una compañía tecnológica que emplea a los humanos para participar en experimentos relacionados con la IA.
Los investigadores enfrentaron varios modelos de IA contemporáneos contra humanos, incluidos GPT-4O, LLAMA-3.1-405B y GPT-4.5. Curiosamente, GPT-4.5 surgió como el ganador, pero solo cuando se le indicó que adoptaran una «persona humana». En esas conversaciones, GPT-4.5 se consideró el humano el 73% del tiempo: significativamente más a menudo que los interrogadores seleccionaron al verdadero participante humano, dicen Jones y Bergen, destacando un cambio notable en la capacidad de AI para emular la conversación humana.
Los investigadores también utilizaron un chatbot basado en reglas más antiguo llamado Eliza para generar texto y los jueces identificaron fácilmente como una máquina. Del mismo modo, GPT-4O, un modelo de generación anterior, también tiene un rendimiento significativamente inferior, elegido como humano en solo el 21% de los casos. «Los resultados constituyen la primera evidencia empírica de que cualquier sistema artificial pasa una prueba estándar de Turing de tres partes», dicen Jones y Bergen.
Jones y Bergen atribuyen parte del éxito de GPT4.5 a la cuidadosa elaboración de indicaciones diseñadas para guiar al modelo para adoptar una persona que los humanos encuentran relatable y convincentemente auténtico, específicamente una persona de una persona joven introvertida fluida en la jerga y la cultura de Internet. La capacidad de GPT4.5 para hacer esto, dicen los investigadores, demuestra el comando matizado sobre los patrones de lenguaje y las sutilezas interactivas que anteriormente se pensaban exclusivamente humanas.
«Podría decirse que es la facilidad con la que los LLM se pueden llevar a adaptar su comportamiento a diferentes escenarios que los hacen tan flexibles: y aparentemente tan capaz de pasar como humanos», dicen Jones y Bergen. Esta adaptabilidad, en lugar de ser una debilidad, es precisamente lo que subraya su inteligencia emergente.
Por supuesto, el trabajo también plantea la cuestión espinosa de si la prueba de Turing está midiendo la inteligencia o simplemente mide la capacidad de pasar la prueba. De cualquier manera, el éxito de GPT-4.5 desafía la sabiduría convencional de que la inteligencia genuina debe incluir una conciencia consciente o una profunda comprensión. Incluso puede provocar una reevaluación de los criterios utilizados para definir las habilidades cognitivas y el intelecto.
Inteligencia en evolución
Ese es un resultado impresionante con importantes implicaciones éticas, económicas y sociales. «Los modelos con esta capacidad de engañar y disfrazarse de manera robusta a medida que las personas podrían usarse para la ingeniería social o para difundir la información errónea», dicen los investigadores, advirtiendo sobre el mal uso potencial de los «humanos falsificados» en política, marketing y ciberseguridad.
Pero también hay una ventaja clara, aunque con advertencias importantes. Los mejores agentes de conversación podrían mejorar significativamente las interacciones humanas-computadora, mejorar los servicios automatizados, la asistencia virtual, la compañía y las herramientas educativas. Lograr un equilibrio entre la utilidad y el riesgo probablemente requerirá una regulación cuidadosamente considerada.
El trabajo también puede obligar a los humanos a cambiar la forma en que interactúan entre sí. Jones y Bergen imaginan un mayor énfasis cultural en la interacción humana auténtica, estimulada por la ubicuidad de las contrapartes de IA capaces.
Este desenfoque de la distinción entre máquinas y humanos seguramente habría fascinado incluso a sí mismo.
Ref: Los modelos de idiomas grandes pasan la prueba de Turing: arxiv.org/abs/2503.23674