Hendrik Macedo
18/07/2019

Tabela periódica de Mendeleev (1869) [1]

Há quase 4 anos, em meu primeiro artigo aqui nesse portal “Máquinas que compreendem a linguagem humana”, escrevi sobre o estrelado sistema Watson/IBM e seu grande feito no mundo das disputas de conhecimento televisas no melhor estilo “Quem que ser um milionário?” lá no início dessa década; não apenas isso, mas principalmente sobre sua enorme capacidade de analisar a linguagem escrita humana a ponto de, por exemplo, processar milhares de artigos científicos sobre uma dada proteína associada a muitos tipos de câncer e identificar sozinho várias outras proteínas relacionadas a esta e que haviam passado desapercebidas pelos pesquisadores e médicos.

Pois bem, essa invejável capacidade cognitiva do Watson se disseminou e evoluiu. Isso é o que mostra um artigo publicado no início deste mês na revista Nature [2]. Pesquisadores do Departamento de Energia da Universidade de Berkeley (Califórnia, EUA) criaram uma máquina inteligente capaz de realizar a “leitura” de mais de 3 milhões de resumos (abstracts) de artigos científicos publicados entre os anos de 1922 e 2018; ou seja, quase 100 anos de pesquisa científica foram analisados pela máquina. Além de descobrir materiais (elementos químicos) com propriedades especiais, ela provou seu alto poder de cognição ao recomendar materiais para aplicações funcionais vários anos antes de quando essa descoberta foi de fato feita pelos humanos. A título de exemplo, através da leitura de trabalhos publicados até o ano de 2009, houveram duas descobertas feitas pela máquina que os humanos só chegaram em 2018.

Isso sugere que o conhecimento latente sobre descobertas futuras está, em grande parte, embutido em publicações já existentes, mas permanece desconhecido, simplesmente porque ninguém ainda vasculhou o suficiente. O fato é que particularmente para a pesquisa em Ciência dos Materiais, a principal fonte de dados interpretáveis ​​por computadores advém de bancos de dados estruturados, dados bem-comportados. O problema é que esse tipo de dado representa uma fração muito pequena de todo o conhecimento presente na literatura científica relacionada e só acessada através da leitura de textos grandes, difíceis e que demandam muito tempo. O que uma máquina inteligente moderna como essa é capaz de fazer, assim como fora o Watson anteriormente, é extrair propriedades relevantes e descobrir conexões e relacionamentos complexos entre elementos de dados presentes no corpo massivo da literatura científica de maneira coletiva.

Bom, a dita cuja foi treinada a partir de um grande conjunto de resumos científicos. Esses resumos foram obtidos a partir de bases científicas relevantes, tais como a Scopus da Elsevier e a Springer Nature. O aspecto central do modelo criado refere-se à representação dos elementos de texto, as palavras. Cada palavra é representada por um vetor multidimensional que preserva seus relacionamentos sintáticos e semânticos com outras palavras, conseguidos através de informação sobre co-ocorrência de palavras nos textos. Na literatura de Processamento de Linguagem Natural (PLN), esse vetor de representação é chamado de word embeddings [3], que são gerados a partir de algoritmos de aprendizado profundo que dispensam qualquer intervenção humana; no caso do domínio desse trabalho, não houve qualquer inserção explícita de conhecimento em Química e, ainda assim, esses embeddings conseguiram capturar conceitos complexos de Ciência dos Materiais como, por exemplo, a estrutura subjacente da tabela periódica e as relações estrutura-propriedade nos materiais. O modelo produziu, por exemplo, uma lista ordenada de materiais que eram fortes candidatos a possuir propriedades termoelétricas (capacidade de converter calor em energia).

Dentre os algoritmos de aprendizado existentes atualmente para tal fim, os autores utilizaram um dos mais famosos e bem-sucedidos, o chamado Word2vec, particularmente a variação Skip-gram [4]. A hipótese central que norteia a técnica, já validada em diferentes trabalhos de PLN, é a de que já que palavras diferentes com significados similares frequentemente aparecem em contextos similares, seus embeddings correspondentes também serão similares. O modelo manipulou os vetores para descobrir termos, conceitos e princípios fundamentais da Ciência dos Materiais. Dois exemplos ilustram essa capacidade de manipulação. Muitas palavras encontradas nos resumos representam composições químicas de materiais e os cinco materiais mais similares ao LiCoO2 (um composto de cátodo de íon-lítio bem conhecido) pode ser determinado através de um produto vetorial (projeção) dos embeddings normalizados. De acordo com o modelo treinado, as composições com a maior similaridade ao LiCoO2 foram LiMn2O4, LiNi0.5Mn1.5O4, LiNi0.8Co0.2O2, LiNi0.8Co0.15Al0.05O2 e LiNiO2 — todas elas também são, não por acaso, materiais de cátodo de íon-lítio. Outro exemplo, diz respeito ao suporte a analogias: ‘NiFe’ está para ‘ferromagnetic’ tal como ‘IrMn’ está para ‘?’. O modelo resolve o problema através de uma operação aritmética no espaço vetorial: ferromagnetic – NiFe + IrMn ≈ …. antiferromagnetic!!! Voilà! 🙂

A mensagem passada pelo Watson e seus descendentes é clara: escolha um campo da Ciência e eu o ajudarei com insights que você provavelmente só terá daqui a uma década, o ajudarei com a cura que demoraria a ser descoberta, com o dinheiro que não seria economizado, com o veículo que jamais o transportaria, com a estrela que só seria notada quando não mais existisse, com a tecnologia que só “compraria” sua segurança, sua saúde, sua paz, daqui a muitos e muitos anos. Se o conhecimento existe desde ontem, “hoje” já é muito longe!

[1] Crédito da imagem: Dimitri Mendeleev (in Zeitschrift für Chemie (1869)) – https://archive.org/stream/zeitschriftfrch12unkngoog#page/n414/mode/2up, Public Domain, https://commons.wikimedia.org/w/index.php?curid=30456569. ]

[2] Tshitoyan, V., Dagdelen, J., Weston, L., Dunn, A., Rong, Z., Kononova, O., … & Jain, A. (2019). Unsupervised word embeddings capture latent knowledge from materials science literature. Nature, 571 (7763), 95. ]

[3] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781. ]

[4] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. (2013). Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119). ]

Como citar este artigo: Hendrik Macedo. Conhecimento desconhecido. Saense. https://saense.com.br/2019/07/conhecimento-desconhecido/. Publicado em 18 de julho (2019).

Artigos de Hendrik Macedo Home