Oriol Vinyals: “Nuestra generación verá una inteligencia artificial que iguale o supere a la del ser humano”
Oriol Vinyals: “Nuestra generación verá una inteligencia artificial que iguale o supere a la del ser humano”
Oriol Vinyals, director de investigación de DeepMind, la empresa de Google que lidera los desarrollos en inteligencia artificial del grupo, posa en las oficinas del barrio de Kings Cross, en Londres. Carmen Valiño
Desde que de pequeño vio 2001: Una odisea del espacio, Oriol Vinyals supo que quería dedicarse a la inteligencia artificial. “Me interesó mucho la naturalidad con la que hablaba Hal 9000, el ordenador. ¿Podríamos conseguir algo así?”, se preguntaba ya ese adolescente de Sabadell. Hoy, a sus 39 años, es una autoridad mundial en el aprendizaje profundo (deep learning), una de las técnicas más punteras de la inteligencia artificial (IA). Sus artículos científicos han sido citados decenas de miles de veces y sus investigaciones han contribuido a mejorar los sistemas de traducción automática o la forma en que las máquinas interpretan y clasifican imágenes. El propio Elon Musk, un personaje que no destaca por su modestia, contestó agradecido a un tuit del catalán en el que este bendecía un proyecto de Tesla. La suya es una de las 148 cuentas que seguía el magnate, que acumula 121 millones de seguidores, cuando se escribieron estas líneas.
Vinyals es el director de investigación de DeepMind, una empresa británica que Google compró en 2014 y que ha conseguido grandes avances en la disciplina. La start-up acaparó sus primeros titulares en la prensa internacional gracias a AlphaGo, un programa que logró imponerse a un campeón mundial de Go, el milenario juego asiático cuyo tablero permite que las fichas se coloquen en más disposiciones que átomos hay en el universo. El programa no solo superó al mejor, sino que por el camino inventó jugadas nunca antes vistas.
El catalán entró en Google en 2013, tras doctorarse en la Universidad de Berkeley. Menos de un año después aterrizó en la recién adquirida DeepMind. Y en 2016, lideró el equipo responsable del siguiente gran hito de la compañía: AlphaStar, un simulador capaz de ganar a jugadores expertos de StarCraft II. Se trata de un videojuego de estrategia en tiempo real con información imperfecta (cada jugador solo ve qué sucede en la porción del mapa que ha explorado) en el que es clave tener intuición, imaginación y dotes cognitivas para intentar adivinar qué estará haciendo el oponente. Cualidades estas que la IA todavía no había demostrado saber dominar.
Desde entonces, ha formado parte o supervisado los equipos que están detrás de AlphaFold, una inteligencia artificial que ha predicho la estructura de todas las proteínas conocidas (unos 200 millones de moléculas), o de AlphaCode, un programa automático capaz de escribir código al nivel de los mejores programadores. Esta misma semana, DeepMind ha presentado un nuevo avance en el entorno de los juegos: AlphaNash, un algoritmo capaz de jugar como un humano experto a Stratego, un juego de tablero probabilísticamente más complejo todavía que Go. Vinyals recibe a EL PAÍS en las oficinas londinenses de DeepMind, ubicadas en el barrio de Kings Cross y que casualmente están a tiro de piedra de las de Meta, el archienemigo de Google. “Desde la ventana de mi despacho puedo saludarlos”, comenta entre risas.
Pregunta. Cuando tiene que contarle a alguien a qué se dedica, ¿qué le dice?
Respuesta. Es difícil explicarlo. Desarrollamos máquinas capaces de aprender por sí mismas a jugar a juegos. Antes, la IA consistía en programar una serie de instrucciones concretas, por ejemplo, que la máquina dijera una serie de frases. Ahora, con el aprendizaje profundo, lo que haces es decirle que cuando vea las palabras “El cielo es” sepa decir a continuación “azul”. Le enseñas a predecir esa palabra mostrándole miles o millones de ejemplos. Vas moldeando el sistema con un algoritmo automático hasta que es capaz de hilar frases con sentido. La magia es que cuando le das una entrada que no forma parte de los ejemplos que ha analizado, ese cerebro generaliza y es capaz de hacer una extrapolación razonable.
P. Pudiendo aplicar el deep learning a casi cualquier ámbito, ¿por qué empezaron por los juegos?
R. Los juegos son muy útiles en la investigación porque ofrecen un entorno controlado en el que hacer pruebas, ya que si pierdes o ganas no pasa nada, y en el que además es muy sencillo definir los objetivos, que son ganar la partida. Puedes correr 1.000 juegos en paralelo sin el gasto que supondría, por ejemplo, poner a 1.000 robots a hacer cosas. Y se pueden acelerar las simulaciones, por lo que avanzas más rápido que si trabajas en tiempo real.
P. ¿Por qué le encargaron a usted el proyecto AlphaStar?
R. De joven jugué mucho al StarCraft en cibercafés de Sabadell. Y en Berkeley, un colega y yo desarrollamos un simulador un tanto primitivo para ese videojuego. Cuando llegué a DeepMind yo venía de Google Brain, el proyecto de investigación de la compañía centrado en aprendizaje profundo. Había trabajado en sistemas de traducción de textos y de clasificación de imágenes, entre otros. Y, aunque no lo parezca, los algoritmos detrás de esas máquinas tienen mucho que ver con los simuladores de juegos. Por ejemplo, en AlphaStar el primer paso es aprender de las partidas que juegan los humanos. Le pides al algoritmo que, tras estudiar muchas partidas y haber visto lo que ha sucedido en la que está en curso, te diga en un momento concreto dónde clicará el humano a continuación. Ese primer paso es idéntico al que se usa en las traducciones de texto o para crear lenguaje natural: tras analizar millones de palabras o frases, le pides que te diga cuál es la letra o palabra más probable que siga en la conversación en un momento dado.
P. Luego vinieron AlphaFold y AlphaCode. ¿Tienen relación, más allá del nombre?
R. Son proyectos muy distintos, aunque es verdad que lo que descubrimos en uno lo transferimos a los algoritmos del otro. Los aprendizajes que tuvimos con AlphaStar en arquitecturas y en optimización de sistemas los hemos aplicado en modelos de lenguaje natural o en AlphaFold, que nos ha permitido desentrañar la estructura de las proteínas. Los algoritmos que desarrollamos en cada proyecto son como herramientas que vas acumulando y que puedes aplicar en otras aplicaciones. Todo lo que hemos hecho hasta ahora nos está ayudando, por ejemplo, en un trabajo que tenemos en marcha sobre fusión nuclear.
P. ¿Fusión nuclear?
R. Sí. Lograr la fusión es sencillo; la parte difícil es extraer más energía de la que inviertes. En la fusión nuclear se usan una especie de tubos vacíos en forma de donut con campos electromagnéticos que están controlados a unas frecuencias muy altas. Dentro del donut se ubica el plasma, que lo calientas tanto que se genera energía, porque llega un momento en que se empiezan a fusionar los átomos. Nuestra aportación aquí está en la parte del control de esos campos electromagnéticos: hay que asegurarse de que nunca toque una pared, que esté donde debe. Para ello, hay que balancearlo con mucha precisión y de forma muy rápida. Es un sistema muy complejo. Y es como un juego: se trata de optimizar los sistemas para que el plasma quede bien colocado. Estamos usando algoritmos de aprendizaje reforzado. Hay resultados prometedores, pero todavía estamos en una fase muy temprana.
Crear una inteligencia artificial que iguale o supere a la nuestra será el avance científico más profundo que alcanzará la humanidad”
P. ¿En qué más trabajan?
R. También estamos intentando mejorar las predicciones meteorológicas, estudiando cómo se mueven las nubes. Si conseguimos hacer proyecciones climáticas planetarias más allá de una semana, que es lo que se puede hacer ahora, podremos entender mejor las consecuencias de la emergencia climática. Es un campo nuevo para nosotros. Como investigador, lo más apasionante del aprendizaje profundo es que en realidad es una metaciencia: se puede aplicar a la biología, la física o a lo que quieras. El aprendizaje profundo tiene infinitas aplicaciones.
P. Están también desarrollando un sistema de IA que no es especialista en hacer una sola tarea, sino varias. ¿Es su proyecto más ambicioso?
R. Se suele criticar de la IA que es especialista en algo, aunque sea infinitamente relevante, como la fusión nuclear, pero que no entiende nada más allá de su tarea. Nosotros queremos cambiar eso. Lo que hemos conseguido hasta ahora es un rendimiento del 101% jugando al Go, combinando proteínas o programando. El futuro pasa por la multimodalidad, por conseguir rendimientos del 10% o 20%, pero en muchas o todas las tareas. Eso es lo que queremos lograr con nuestra red neuronal Gato. Por el momento, con ella puedes mantener una conversación preguntándole con texto o mostrándole una imagen para que la comente. También es capaz de jugar videojuegos simples y de controlar un brazo robótico. Las tareas que hace no son perfectas: a veces se equivoca en cuestiones sencillas, como ubicar la derecha y la izquierda. Pero eso irá mejorando. Conseguiremos desarrollar un solo algoritmo que lo haga todo.
P. ¿Gato es un primer paso hacia una inteligencia artificial general, la que iguale o supere al ser humano?
R. Sí, claramente. Creo que el procesamiento del lenguaje es a día de hoy el campo más prometedor hacia una inteligencia artificial realmente general. Y a ello se llega con algoritmos que crearán sistemas más generales que los que usamos hoy. AlphaCode es otro buen ejemplo: que haya sistemas que entiendan el lenguaje de código significa que pueden crear complejidades mucho más generales de lo que veíamos hasta ahora.
P. ¿Cree que nuestra generación llegará a ver una de estas inteligencias artificiales generales?
R. Sí, creo que lo viviremos. Pero también opino que en un primer momento no será algo que lo cambie todo de la noche a la mañana. La transición será paulatina, y de hecho en el campo de la IA ya se palpa una evolución. Veremos una serie de saltos o transiciones que no serán increíbles, pero que irán sumando, y que serán verdaderamente llamativos al mirar hacia atrás. Dentro de unos años, no sé cuántos, los sistemas cada vez serán capaces de hacer más cosas distintas y con mejor eficacia: 20%, 30%... hasta llegar al 100%. Como será progresivo, la gente se irá acostumbrando a ello.
P. Este verano, un ingeniero de Google dijo que el chatbot [bot conversacional] en el que trabajaba había cobrado conciencia. ¿Pueden las máquinas sentir?
R. Me parece un debate muy interesante. Trabajo en las tripas de la IA, por así decirlo, y, claramente, las máquinas no tienen conciencia. Los chatbots te pueden decir qué hora es y otras cuestiones así, pero tienen limitaciones muy básicas. Una de ellas es que no son conscientes de su propia existencia. Otra también muy obvia es que no tienen memoria a largo plazo, empiezas de cero con cada conversación y se contradicen a ellos mismos. En cualquier caso, creo que es muy útil hablar públicamente de estos temas.
P. Los modelos conversacionales más punteros no tienen un entendimiento semántico de qué se les dice, pero son capaces de producir las respuestas que daría alguien que sí comprende qué se le pregunta. ¿Son entonces inteligentes?
R. A mí la parte que más me interesa de esto es la utilitaria. Es cierto que si conseguimos enseñar a estos algoritmos a jugar a juegos y comprobamos que los han entendido, luego puedes analizar qué proceso han seguido para llegar hasta ahí. Si eso es o no inteligencia, casi no me importa. Entiendo que para alguien que estudia el cerebro humano pueda ser interesante. Mi formación matemática me lleva a pensar que lo relevante es el hecho de conseguir que una máquina realice una tarea de forma indistinguible a como la haría un humano.
P. ¿Estamos preparados como sociedad para encajar más avances de este tipo?
R. Creo que conseguir crear una inteligencia artificial general será uno de los avances científicos más profundos que podrá alcanzar la humanidad, porque ni siquiera entendemos nuestra propia inteligencia, a pesar de los muchos avances de los neurocientíficos. Debemos hablar más sobre ello, sobre sus implicaciones. Filósofos, sociólogos o historiadores cada vez tienen más que decir en nuestro trabajo. Hay que pensar en las consecuencias a largo plazo de la IA.