La Inteligencia Artificial de Google consigue dominar el 'Stratego', un juego de información imperfecta
El programa de inteligencia artificial DeepNash, desarrallodo por la empresa británica DeepMind ha aprendido a jugar al Stratego a nivel experto. Se trata de uno de los pocos juegos de mesa que la inteligencia artificial (IA) todavía no había dominado, debido a la gran incertidumbre que lo caracteriza. El logro alcanzado por la empresa británica, comprada por Google en 2014, se publica en el número de esta semana de la revista Science.
A diferencia de otros juegos ya controlados por la inteligencia artificial, como el ajedrez o el Go, en los que los jugadores pueden ver todas las piezas del juego y crear de este modo estrategias, los jugadores de Stratego tienen que aprender a manejar la falta de certeza. Es un juego mucho más parecido al póker, en el que cada jugador conoce sus propias cartas pero no las del oponente.
Para jugar bien a Stratego con IA es necesario encontrar un algoritmo que tenga en cuenta las dudas del jugador. La gran cantidad de resultados posibles tiene como consecuencia que los algoritmos que funcionan bien en juegos de información perfecta, e incluso aquellos que funcionan bien para el póker, no se puedan aplicar a este juego. La complejidad es de muchos órdenes de magnitud mayor: 10^66 en Stratego comparado con 10^6 en Texas Hold'em para dos jugadores.
“En Stratego, la planificación es casi imposible, dada la cantidad de incertidumbre sobre la que los jugadores tienen que razonar. En este trabajo, tomamos otro camino y aprendimos directamente una estrategia para cada situación dada del tablero, usando una combinación de teoría de juegos y aprendizaje de refuerzo profundo”, explica a la Agencia SINC Julien Perolat, coautor principal del estudio e investigador de DeepMind.
Para desarrollar DeepNash, el programa detrás del logro, Perolat y sus colegas combinaron el algoritmo R-NaD, de aprendizaje por refuerzo, con una arquitectura de red neuronal profunda para lograr una estrategia de juego competitiva.
El programa se probó contra varios bots Stratego de última generación y contra jugadores humanos expertos. Ganó contra todos los bots y logró un nivel de juego altamente competitivo contra jugadores humanos con nivel de experto en Gravon, la plataforma en línea más grande de jugadores de Stratego.
Los juegos como campo de experimentación
El propósito de estudiar juegos con IA no siempre es ganar, sino probar nuevos métodos y enfoques que podrían ser útiles para problemas del mundo real.
“Es poco probable que los sistemas de IA sean imbatibles en juegos que manejan incertidumbre. Para ganar en un juego de información imperfecta, normalmente se necesita una combinación de suerte y habilidad. E incluso si un programa de inteligencia artificial hubiera aprendido una estrategia perfecta –digamos un equilibrio de Nash– aún podría perder por tener mala suerte”, explica Karl Tuyls, coautor principal del estudio e investigador de DeepMind.
El programa plantea posibilidades para que sistemas de IA tengan aplicaciones en el mundo real en entornos con información imperfecta. Esto se debe a que puede manejar grandes cantidades de incertidumbre en forma de información y antes no era posible
“Los juegos son el entorno perfecto para estudiar los sistemas avanzados de inteligencia artificial. Permiten desarrollar y probar algoritmos de IA más inteligentes y flexibles de manera rápida y eficiente, y también ofrecen comentarios instantáneos sobre cómo lo estamos haciendo a través de las puntuaciones”, explica Perolat.
Todavía quedan juegos que la IA no ha podido dominar. Según los investigadores, un ejemplo podría ser bridge, un juego de cuatro jugadores en el que se compite por parejas. “En este juego se han logrado algunos avances en los últimos años con versiones simplificadas, pero sigue siendo difícil para una IA dominar el juego completo,” añade Perolat.
IA para mejorar el tráfico
Según los autores, este avance podría ayudar a desbloquear nuevas aplicaciones de la IA en dominios que cuentan con una gran cantidad de participantes humanos y donde no se tiene información sobre la intención de los usuarios o lo que está ocurriendo en el entorno. Como por ejemplo, para optimizar la gestión del tráfico a gran escala, reducir los tiempos de viaje de los conductores y las emisiones de los vehículos.
“Creemos que DeepNash plantea nuevas posibilidades para que los sistemas de IA tengan aplicaciones en el mundo real en entornos caracterizados por la información imperfecta. Esto se debe a que puede manejar grandes cantidades de incertidumbre en forma de información y antes no era posible”, explica Karl Tuyls.
Referencia: Julien Perolaty Bart De Vylder et al . 'Mastering the game of Stratego with model-free multiagent reinforcement learning'. Revista Science, 2022 | 10.1126/science.add4679.