Hendrik Macedo
03/03/2017
Há um ano escrevi sobre o jogador perfeito de poker, referindo-me a um agente inteligente impossível de ser derrotado em uma disputa de poker tête-à-tête contra quem quer que fosse. Na ocasião, expliquei a razão pela qual o feito foi considerado extraordinário: ao contrário de jogos como Xadrez, Damas ou Go, no poker, nenhum jogador pode ver as cartas de seu adversário e nem as do carteador e, portanto, precisam raciocinar com informação imperfeita.
Bem recentemente, no fim do mês de janeiro de 2017, um novo agente inteligente competiu contra os quatro jogadores profissionais de poker mais bem ranqueados do mundo na modalidade estabelecida para o desafio. A competição, denominada “Brains vs. Artificial Intelligence”, ocorreu no Rivers Casino em Pittsburgh, E.U.A [2]. Após 120 mil mãos de poker jogadas ao longo de 20 dias de competição que se iniciou em 11 de janeiro, a estrela artificial, Libratus, venceu seus oponentes humanos; e venceu bem, com ampla vantagem nos confrontos, vantagem de quase 2 milhões de dólares em fichas ao término da competição. Seus adversários humanos foram o Dong Kim, Jason Les, Jimmy Chou e Daniel McAulay.
Mas por que o Libratus seria ainda mais impressionante do que um agente inteligente que, sabe-se, não perde jamais, aquele do artigo anterior? Ao contrário daquele, o Libratus disputa a versão Heads-Up No-Limit Texas Hold’em. A expressão “No-Limit” no poker significa que não há limite para as apostas realizadas pelos jogadores e, neste caso, uma mão de jogo envolve um número imenso de possibilidades: 10 a uma potência de 160, ou seja, o número 1 seguido de 160 zeros. Este valor é maior do que a quantidade estimada de átomos presentes no universo observável. Na versão “Limit” este número é reduzido para algo em torno de 10 a uma potência de 14. De fato, qualquer máquina pode simplesmente calcular as chances que sua mão tem de ganhar e jogar de acordo com esta estatística, mas saber como apostar estrategicamente é muito mais complicado: se, por exemplo, a máquina aposta alto toda vez que possui uma boa mão, o adversário humano rapidamente iria descobrir esse padrão e explora-lo a seu favor.
O Libratus foi desenvolvido por pesquisadores da Universidade de Carnegie Mellon, E.U.A e assim como o “jogador perfeito” da versão “Limit”, seu algoritmo também foi construído em cima do CRF+ (falo mais sobre o CRF+ no artigo “Jogador perfeito de poker”). A diferença, entretanto, reside numa nova técnica que os pesquisadores desenvolveram para o resolver o problema do “Fim de Jogo” (Endgame) [3]. A resolução do Fim de Jogo é o processo de calcular uma (presumivelmente) melhor estratégia para apenas o fim do jogo do que o que pode ser calculado para o jogo completo. Isto permite, por exemplo, raciocinar sobre as ações de fim de jogo que um oponente tomou e que não estavam incluídas nas ações usadas para resolver o jogo completo.
Para treinar para a competição, o Libratus jogou trilhões de mãos de poker contra uma cópia dele mesmo para construir uma base de dados sobre que escolhas tendem a funcionar melhor que outras. Este método de treinamento levou a decisões aparentemente incomuns para quem joga poker: quando o oponente, por exemplo, aumenta a aposta na última rodada de apostas de uma determinada mão, o Libratus cobria aquela aposta mesmo tendo uma combinação fraca de cartas com baixa probabilidade de vitória. Contra toda a “sabedoria popular” do poker, isso se tornou uma grande jogada, altamente capaz de lidar com blefes. Mais do que estratégias aprendidas previamente, o algoritmo do Libratus permite ainda que ele evolua sempre a partir de novas observações. Um exemplo disso é que durante a competição o Libratus passava as madrugadas melhorando suas estratégias de jogo a partir da análise das mãos de jogo daquele dia e seus respectivos resultados, especialmente as mãos em que ele perdia. Os competidores humanos desfrutavam de liberdade equivalente para estudar o jogo do Libratus.
Uma Inteligência Artificial capaz de vencer consistentemente em um jogo de poker com apostas sem limites possui enormes aplicações em várias outras áreas. Médicos, por exemplo, precisam por vezes decidir sobre o tratamento mais adequado mesmo sem conhecer tudo sobre seus pacientes. De maneira similar, estratégias militares ou de ciber-segurança precisam ser traçadas sem conhecer com profundidade quem são ou como agem os inimigos. Negociações comercias seguem o mesmo perfil. Qualquer situação da vida real que requeira que estratégias sejam elaboradas a partir de informações limitadas ou parciais podem fazer uso de um Libratus. A vida real, na verdade, é repleta desse tipo de informação e, como possivelmente alguns de vocês devem saber, em boa parte dela, as nossas apostas precisam ser bem altas!
[1] Crédito da imagem: Pixabay / Creative Commons CC0. URL: https://pixabay.com/pt/cassino-pôquer-jogar-estúdio-1107736/.
[2] Brains vs. Artificial Intelligence. Rivers Casino. URL: https://www.riverscasino.com/pittsburgh/BrainsVsAI/. Acesso em 03 de março (2017).
[3] N Brown and T Sandholm. Safe and Nested Endgame Solving for Imperfect-Information Games. In the Workshop on Computer Poker and Imperfect Information at the AAAI Conference on Artificial Intelligence. (2017).
Como citar este artigo: Hendrik Macedo. Máquina vence campeões humanos no poker. Saense. URL: http://www.saense.com.br/2017/03/maquina-vence-campeoes-humanos-no-poker/. Publicado em 03 de março (2017).
Texto muito bom!
Valeu, Michael!
Texto interessante, professor. Parabéns pela iniciativa! O tema me lembrou muito o principal foco do Livro “O humano mais humano” de Brian Christian que era saber se uma máquina realmente era pensante através de um experimento com uma espécie de jogo de diálogos. Uma comissão conversaria com um computador e um humano, com base nas respostas, o juiz tinha que decidir quem era quem. Daí, vemos hoje como evoluiu, né? Vencer jogos de poker que exige bastante estratégia de um jogador humano. rs
Olá, Antônio. Esse experimento a que se refere é conhecido como “Teste de Turing”. Obrigado pela leitura!