O jogador perfeito de poker

Hendrik Macedo
04/03/2016

Jogo de poker. [1]
Jogo de poker. [1]
Em 1997, um supercomputador da empresa IBM, então denominado de Deep Blue, foi capaz de disputar uma série de partidas de xadrez contra o então campeão mundial e considerado por muitos o maior enxadrista de todos os tempos, Garry Kasparov. O resultado do embate, que terminou com 2 vitórias para o computador, 3 empates e 1 vitória para o Sr. Kasparov, mostrou ao mundo o que uma máquina com alto poder de processamento e memória aliados a algoritmos inteligentes extremamente complexos poderia ser capaz de realizar.

Recentemente, um novo algoritmo computacional mostrou ser possível construir um agente inteligente artificial capaz de jogar uma das variantes mais famosas do jogo de poker de forma perfeita: o heads-up limit hold’em (HULHE) [2]. Segundo seus criadores, ele é incapaz de perder contra qualquer oponente em um jogo justo, o que faz com que o jogo HULHE seja considerado resolvido (assim como ocorreu com o jogo de damas em 2007 [3]). Do ponto de vista científico, o que faz do evento um feito extraordinário é que o poker possui uma configuração de ambiente extremamente mais complexa que o xadrez ou o jogo de damas. No xadrez ou nas damas, todos os jogadores tomam conhecimento de tudo o que ocorreu no jogo antes de decidir sua próxima jogada, ou seja, os adversários visualizam todas as peças existentes no tabuleiro e fora dele e visualizam todas as jogadas de seu adversário sem qualquer informação escondida; isto é o que chamamos de jogos (econômicos) de informação perfeita. O poker, ao contrário, é um jogo (econômico) de informação imperfeita. Neste caso, os jogadores devem lidar com a incerteza sobre as cartas de seus adversários e sobre as cartas que estão de posse do carteador.

O novo algoritmo, intitulado CRF+, é uma variação do algoritmo Counterfactual Regret Minimization (CFR). CRF é um método iterativo para aproximar um equilíbrio de Nash (sim, aquele mesmo do filme “Uma mente brilhante”) de um jogo na forma extensiva através de repetidas disputas entre dois agentes inteligentes artificiais executando o mesmo tipo de algoritmo. Posto de forma mais clara, o algoritmo permite que o agente aprenda com a experiência de jogar contra uma outra versão dele mesmo, tomando inicialmente decisões aleatórias e, posteriormente, incorporando um valor de “arrependimento” (regret) para cada decisão ruim que tenha sido tomada.

Antes dos empresários de sítios de apostas online e donos de cassinos começarem a acender a luzinha da inquietação (afinal, com o crescente ganho do poder de processamento de dispositivos móveis e compactos como smartphones, o CRF+ logo poderá ser levado no bolso), é importante destacar que a importância de soluções como essa vão muito além da disputa do poker em si ou mesmo da construção de adversários artificiais mais desafiadores em jogos de video-game para puro entretenimento das pessoas. A classe de jogos econômicos de informação imperfeita possui sérias e importantes implicações no “mundo real”. Alguns exemplos de aplicações práticas dessa classe de jogos são a busca por estratégias ótimas para leilões e negociações, patrulhamento da guarda costeira, segurança de aeroportos e suporte à decisão médica [4], [5]. Na verdade, qualquer problema real de tomada de decisão em meio a incertezas e informações parciais são passíveis do uso bem sucedido de algoritmos computacionais para essa classe de jogos.

[1] Crédito da imagem: Unsplash (Pixabay) / Creative Commons CC0. URL: https://pixabay.com/pt/cartões-blackjack-cassino-1030852/.

[2] M Bowling et al. Heads-up limit hold’em poker is solved. Science 347, 145 (2015).

[3] J Schaeffer et al.  Checkers is solved. Science 317, 1518 (2007).

[4] M Tambe.  Security and game theory: Algorithms, deployed systems, lessons learned. Cambridge University Press (2011).

[5] K Chen and M Bowling.  Tractable objectives for robust policy optimization. In Advances in Neural Information Processing Systems, pp. 2069-2077 (2012).

Como citar este artigo: Hendrik Macedo. O jogador perfeito de poker. Saense. URL: http://www.saense.com.br/2016/03/o-jogador-perfeito-de-poker/. Publicado em 04 de março (2016).

Artigos de Hendrik Macedo     Home

Publicado por

Hendrik Macedo

Hendrik Macedo

Doutor em Ciência da Computação. Professor da Universidade Federal de Sergipe. Escreve sobre Inteligência Artificial no Saense.

4 comentários sobre “O jogador perfeito de poker”

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

This site uses Akismet to reduce spam. Learn how your comment data is processed.