Hendrik Macedo
05/02/2016

Pacman. Crédito: Pixabay / Creative Commons.
Pacman. [1]
Asteroids, Atlantis, Demon Attack, Enduro, Space Invaders, River Raid: os mais jovens provavelmente nunca ouviram falar. Boa parte das horas dos dias da década de 80 foi certamente reservada a tentar vencer os grandes desafios proporcionados por estes clássicos jogos arcade do Atari 2600. Como todo bom desafio, a receita para resolvê-lo consiste em estudar seus pormenores, elaborar uma estratégia e a partir de então entrar em um ciclo exaustivo de repetir, errar, corrigir.

Pois bem, uma equipe de pesquisadores saudosistas da Google e desenvolvedores de uma pequena startup chamada DeepMind, com sede em Londres, e recém adquirida pela empresa, resolveu passar a receita para um computador (por certo, não dispunham de tantas horas a dedicar eles próprios com a empreitada) e observar se este conseguia se comportar como um velho garoto aficcionado de trinta anos atrás. Sim, ele conseguiu [2]. O computador foi capaz de, por si só, adquirir expertise sobre uma seleção criteriosa de 49 desses jogos e em muitos casos ultrapassar o desempenho dos melhores jogadores humanos sem sequer observar como estes jogam o jogo ou mesmo obter qualquer feedback humano sobre o melhor caminho a seguir. Após explorar cada jogo por inúmeras vezes, o computador era capaz inclusive de descobrir estratégias avançadas que poucos humanos tinham conhecimento. Este é o caso, por exemplo, do jogo Breakout, onde o jogador precisa de paciência e perseverança para descobrir que a criação de um buraco que leve a bolinha até a parte de trás da parede é o que provocará a maior destruição e, consequentemente, levará a uma maior pontuação.

O mecanismo de aprendizado automático implementado foi denominado de Deep-Q-Network (DQN) por combinar duas diferentes estratégias já bem estabelecidas na Inteligência Artificial: a Aprendizagem Profunda (falo um pouco sobre isso em “Máquinas que descrevem imagens“) e o Q-learning. O Q-learning é a versão matemática de um conceito da psicologia chamado Aprendizagem por Reforço [3], que é um sistema de recompensa que acredita-se guiar o processo de aprendizagem em humanos e outros animais. No caso do DQN, a recompensa vem na forma de pontos no jogo: à medida que o computador tenta diferentes movimentos no jogo, ele guarda o registro de que combinações levaram às maiores pontuações.

O DQN enxerga e interage com o jogo exatamente como os humanos o fazem: realizando movimentos e observando os pixels do jogo modificarem. Ao contrário dos humanos, porém, os pesquisadores deram apenas 2 semanas e um computador desktop convencional para que o DQN pudesse jogar cada um dos 49 jogos. O DQN obteve um desempenho de 20% a 30% superior ao dos jogadores humanos considerados mestres em jogos clássicos como Space Invaders e Pong e em jogos como Breakout e Video Pinball, ele chegou a incrível marca de 10 vezes o número de pontos desses jogadores. O feito do mecanismo criado é um marco na literatura científica relacionada uma vez que os melhores resultados anteriores consistiam de mecanismos que buscavam otimização da pontuação a todo custo mas possuíam desempenho pífio em jogos onde longas e complicadas estratégias são necessárias para se obter uma alta pontuação.

Nos últimos anos, a pesquisa de novos algoritmos para a Aprendizagem por Reforço e sua aplicação para solução de problemas reais perdeu espaço para técnicas baseadas em aprendizado supervisionado, como a Aprendizagem Profunda. Os resultados obtidos com o DQN sugerem que a Aprendizagem por Reforço merece a retomada do prestígio que outrora obteve ao compor diversas aplicações práticas de sucesso em áreas como controle de produção, finanças, planejamento, comunicações, robótica [4], entre outros.

[1] Crédito da imagem: OpenClipart-Vectors (Pixabay) / Creative Commons CC0. URL: https://pixabay.com/en/pacman-pac-man-dots-game-yellow-151558/.

[2] V Mnih et al. Human-level control through deep reinforcement learning. Nature 518, 529 (2015).

[3] LP Kaelbling et al. Reinforcement learning: A survey. Journal of Artificial Intelligence Research 4, 237-285 (1996).

[4] J Kober and J Peters. Reinforcement learning in robotics: A survey. In Reinforcement Learning, pp. 579-610. Springer (2012).

Como citar este artigo: Hendrik Macedo. A máquina que aprende a jogar melhor que você!. Saense. URL: http://www.saense.com.br/2016/02/a-maquina-que-aprende-a-jogar-melhor-que-voce/. Publicado em 05 de fevereiro (2016).

Artigos de Hendrik Macedo     Home