La victoria de AlphaGo retransmitida por televisión
Im Hun-jung/Yonhap/AP Foto vía Getty Images
En marzo de 2016, el sistema de inteligencia artificial AlphaGo de Google DeepMind conmocionó al mundo. En una impresionante serie de cinco partidas de Go, el antiguo juego de mesa chino, la IA venció al mejor jugador del mundo, Lee Sedol, un momento que fue televisado frente a millones y aclamado por muchos como un momento histórico en el desarrollo de la inteligencia artificial.
Chris Maddison, ahora profesor de inteligencia artificial en la Universidad de Toronto, era entonces estudiante de maestría y ayudó a que el proyecto despegara. Todo comenzó cuando Ilya Sutskever, quien más tarde fundó OpenAI, se puso en contacto…
Alex Wilkins: ¿Cómo surgió la idea de AlphaGo?
Chris Maddison: Ilya [Sutskever] me dio el siguiente argumento de por qué deberíamos estar trabajando en Go. Dijo: Chris, ¿crees que cuando un jugador experto mira el tablero de Go puede elegir el mejor movimiento en medio segundo? Si crees que pueden, entonces eso significa que puedes aprender una política bastante buena para elegir el mejor movimiento usando una red neuronal.
La razón es que medio segundo es aproximadamente el tiempo que le toma a la corteza visual hacer un pase hacia adelante. [a round of processing]y ya lo sabíamos por ImageNET [an important AI image-recognition competition] que somos bastante buenos aproximando cosas que sólo requieren un paso hacia adelante de la corteza visual.
Compré ese argumento, así que decidí unirme. [Google Brain] como pasante en el verano de 2014.
¿Cómo se desarrolló AlphaGo a partir de ahí?
Cuando me uní, había otro pequeño equipo en DeepMind con el que iba a trabajar, que eran Aja Huang y David Silver, que habían comenzado a trabajar en Go. Básicamente, me encargaron comenzar a construir las redes neuronales. Fue un sueño.
Probamos muchos enfoques diferentes y muchas de las cosas iniciales que intentamos fallaron. Al final, me frustré e intenté lo más tonto y simple: intentar predecir el siguiente movimiento que haría un experto en una posición determinada del tablero, entrenando una red neuronal en un gran corpus de juegos de expertos. Y ese resultó ser el enfoque que realmente nos hizo despegar.
A finales del verano organizamos un pequeño partido con Thore Graepel de DeepMind, que se consideraba un buen jugador de Go, y mis redes le ganaron. Luego, DeepMind comenzó a convencerse de que esto iba a ser algo real y comenzó a destinar recursos y a formar un gran equipo en torno a ello.
¿Qué tan difícil fue el desafío de vencer a Lee Sedol?
Recuerdo que en el verano de 2014 prácticamente teníamos el retrato de Lee Sedol en nuestro escritorio junto a nosotros. No soy un jugador de Go, pero Aja [Huang] es. Cada vez que construía una nueva red, mejoraba un poco, y recurría a Aja y le decía: Está bien, estamos un poco mejor, ¿qué tan cerca estamos de Lee Sedol? Y Aja se volvía hacia mí y me decía: Chris, no lo entiendes. Lee Sedol está a una piedra de Dios.
Dejaste el equipo AlphaGo antes del gran evento. ¿Por qué?
David [Silver] Dijo que nos gustaría mantenerte y realmente llevar este proyecto al siguiente nivel y, en retrospectiva, esta fue quizás una de las decisiones más estúpidas que tomé, lo rechacé. Dije que creo que necesito concentrarme en mi doctorado, soy un académico de corazón. Regresé a mi doctorado y a partir de ese momento consulté libremente el proyecto. Estoy un poco orgulloso de decir que les tomó un tiempo superar mis redes neuronales. Pero, en última instancia, el artefacto que interpretó a Lee Sedol fue producto de un gran esfuerzo de ingeniería y un gran equipo.
¿Cómo era el ambiente en Seúl cuando ganó AlphaGo?
Estar allí en Seúl en ese momento era difícil de expresar. Fue emotivo. Fue intenso. Había una sensación de ansiedad. Entras con confianza, pero nunca se sabe. Es como un juego de deportes. Estadísticamente hablando, eres el mejor jugador, pero nunca sabes cómo te va a salir. Recuerdo estar en el hotel donde jugábamos los partidos y mirar por la ventana. Estábamos en un nivel lo suficientemente alto como para poder contemplar una de las intersecciones más importantes de la ciudad. Me di cuenta de que había una pantalla grande, algo así como Times Square, que mostraba nuestro partido. Y luego miré a lo largo de las aceras y la gente estaba parada en fila mirando la pantalla. Había escuchado cifras como si cientos de millones de personas en China vieran el primer juego, pero recuerdo ese momento como, oh Dios, realmente hemos detenido al este de Asia en seco.
¿Qué importancia ha tenido AlphaGo para la IA en general?
Mucho ha cambiado a nivel superficial en el mundo de los grandes modelos de lenguaje (LLM), ahora son bastante diferentes en algunos aspectos de AlphaGo, pero en realidad hay un hilo tecnológico subyacente que realmente no ha cambiado.
Entonces, la primera parte del algoritmo es entrenar una red neuronal para predecir el próximo movimiento. Los LLM de hoy comienzan con lo que llamamos entrenamiento previo para predecir la siguiente palabra, a partir de un gran corpus de texto humano que se encuentra principalmente en Internet.
Para el segundo paso en AlphaGo, tomamos la información de ese corpus humano que estaba comprimido en estas redes neuronales y la refinamos mediante aprendizaje por refuerzo, para alinear el comportamiento del sistema con el objetivo de ganar juegos.
Cuando aprendes a predecir el próximo movimiento de un experto, éste intenta ganar, pero eso no es lo único que explica el siguiente movimiento. Quizás no entienden cuál es el mejor movimiento, quizás cometieron un error, por lo que necesitas alinear el sistema general con tu verdadero objetivo, que en el caso de AlphaGo era ganar.
En modelos de lenguaje grandes, ocurre lo mismo después del entrenamiento previo. Las redes no están alineadas con la forma en que queremos usarlas, por lo que realizamos una serie de pasos de aprendizaje por refuerzo que alinean las redes con nuestros objetivos.
En cierto modo, no ha cambiado mucho.
¿Nos dice algo sobre dónde podemos esperar que tengan éxito las IA?
Tiene consecuencias en términos de en qué elegimos centrarnos. Si le preocupa progresar en problemas importantes, los principales obstáculos que deberían preocuparle son si tiene suficientes datos para realizar el entrenamiento previo y si tiene señales de recompensa para realizar el entrenamiento posterior. Si no tienes esos ingredientes, no hay ninguna cantidad de inteligencia (ya sabes, este algoritmo versus aquel algoritmo) que te hará despegar.
¿Sentiste alguna simpatía por Lee Sedol?
Lee Sedol había sido este ídolo durante el verano de 2014, este hito inalcanzable. De repente estar allí en persona, viendo los partidos, su estrés, su ansiedad, darse cuenta de que este era un oponente mucho más valioso de lo que tal vez había pensado al comenzar, fue muy estresante. No querrás poner a nadie en esa posición. Cuando perdió el partido, se disculpó ante la humanidad y dijo: “Este es mi error, no el tuyo”. Eso fue trágico.
También hay una costumbre en Go para revisar el partido con tu oponente. Alguien gana o pierde, pero al final revisas el partido, relajas el juego y exploras variaciones entre ellos. Lee Sedol no pudo hacer eso porque AlphaGo no era humano, así que hizo que sus amigos vinieran y revisaran el partido, pero simplemente no es lo mismo. Se sintió algo desgarrador en eso.
Pero no aprecié todas las narrativas de hombre contra máquina en torno al partido, porque un equipo de personas construyó AlphaGo. Ese fue el esfuerzo de una tribu que construyó un artefacto que podría alcanzar la excelencia en un juego humano. En última instancia, fue el artefacto al que se destinó toda nuestra sangre, sudor y lágrimas.
¿Crees que todavía hay un lugar para los humanos en el mundo a medida que la IA realiza más trabajo de pensamiento humano?
Estamos aprendiendo más sobre el juego de Go, y si pensamos que ese juego es hermoso, lo cual creemos, y las IA pueden enseñarnos más sobre esa belleza, eso también tiene muchas ventajas inherentes. Hay una diferencia entre metas y propósitos. El objetivo del juego de Go es ganar, pero ese no es el único objetivo: uno de los objetivos es divertirse. Los juegos de mesa no se destruyen con la presencia de IA; El ajedrez es una industria próspera. Todavía apreciamos la intriga y el logro humano de ese deporte.
Temas: