A máquina que aprende a jogar melhor que você!

Hendrik Macedo
05/02/2016

Pacman. Crédito: Pixabay / Creative Commons.
Pacman. [1]
Asteroids, Atlantis, Demon Attack, Enduro, Space Invaders, River Raid: os mais jovens provavelmente nunca ouviram falar. Boa parte das horas dos dias da década de 80 foi certamente reservada a tentar vencer os grandes desafios proporcionados por estes clássicos jogos arcade do Atari 2600. Como todo bom desafio, a receita para resolvê-lo consiste em estudar seus pormenores, elaborar uma estratégia e a partir de então entrar em um ciclo exaustivo de repetir, errar, corrigir.

Pois bem, uma equipe de pesquisadores saudosistas da Google e desenvolvedores de uma pequena startup chamada DeepMind, com sede em Londres, e recém adquirida pela empresa, resolveu passar a receita para um computador (por certo, não dispunham de tantas horas a dedicar eles próprios com a empreitada) e observar se este conseguia se comportar como um velho garoto aficcionado de trinta anos atrás. Sim, ele conseguiu [2]. O computador foi capaz de, por si só, adquirir expertise sobre uma seleção criteriosa de 49 desses jogos e em muitos casos ultrapassar o desempenho dos melhores jogadores humanos sem sequer observar como estes jogam o jogo ou mesmo obter qualquer feedback humano sobre o melhor caminho a seguir. Após explorar cada jogo por inúmeras vezes, o computador era capaz inclusive de descobrir estratégias avançadas que poucos humanos tinham conhecimento. Este é o caso, por exemplo, do jogo Breakout, onde o jogador precisa de paciência e perseverança para descobrir que a criação de um buraco que leve a bolinha até a parte de trás da parede é o que provocará a maior destruição e, consequentemente, levará a uma maior pontuação.

O mecanismo de aprendizado automático implementado foi denominado de Deep-Q-Network (DQN) por combinar duas diferentes estratégias já bem estabelecidas na Inteligência Artificial: a Aprendizagem Profunda (falo um pouco sobre isso em “Máquinas que descrevem imagens“) e o Q-learning. O Q-learning é a versão matemática de um conceito da psicologia chamado Aprendizagem por Reforço [3], que é um sistema de recompensa que acredita-se guiar o processo de aprendizagem em humanos e outros animais. No caso do DQN, a recompensa vem na forma de pontos no jogo: à medida que o computador tenta diferentes movimentos no jogo, ele guarda o registro de que combinações levaram às maiores pontuações.

O DQN enxerga e interage com o jogo exatamente como os humanos o fazem: realizando movimentos e observando os pixels do jogo modificarem. Ao contrário dos humanos, porém, os pesquisadores deram apenas 2 semanas e um computador desktop convencional para que o DQN pudesse jogar cada um dos 49 jogos. O DQN obteve um desempenho de 20% a 30% superior ao dos jogadores humanos considerados mestres em jogos clássicos como Space Invaders e Pong e em jogos como Breakout e Video Pinball, ele chegou a incrível marca de 10 vezes o número de pontos desses jogadores. O feito do mecanismo criado é um marco na literatura científica relacionada uma vez que os melhores resultados anteriores consistiam de mecanismos que buscavam otimização da pontuação a todo custo mas possuíam desempenho pífio em jogos onde longas e complicadas estratégias são necessárias para se obter uma alta pontuação.

Nos últimos anos, a pesquisa de novos algoritmos para a Aprendizagem por Reforço e sua aplicação para solução de problemas reais perdeu espaço para técnicas baseadas em aprendizado supervisionado, como a Aprendizagem Profunda. Os resultados obtidos com o DQN sugerem que a Aprendizagem por Reforço merece a retomada do prestígio que outrora obteve ao compor diversas aplicações práticas de sucesso em áreas como controle de produção, finanças, planejamento, comunicações, robótica [4], entre outros.

[1] Crédito da imagem: OpenClipart-Vectors (Pixabay) / Creative Commons CC0. URL: https://pixabay.com/en/pacman-pac-man-dots-game-yellow-151558/.

[2] V Mnih et al. Human-level control through deep reinforcement learning. Nature 518, 529 (2015).

[3] LP Kaelbling et al. Reinforcement learning: A survey. Journal of Artificial Intelligence Research 4, 237-285 (1996).

[4] J Kober and J Peters. Reinforcement learning in robotics: A survey. In Reinforcement Learning, pp. 579-610. Springer (2012).

Como citar este artigo: Hendrik Macedo. A máquina que aprende a jogar melhor que você!. Saense. URL: http://www.saense.com.br/2016/02/a-maquina-que-aprende-a-jogar-melhor-que-voce/. Publicado em 05 de fevereiro (2016).

Artigos de Hendrik Macedo     Home

Publicado por

Hendrik Macedo

Hendrik Macedo

Doutor em Ciência da Computação. Professor da Universidade Federal de Sergipe. Escreve sobre Inteligência Artificial no Saense.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.