Hendrik Macedo
02/07/2016

Vista do túnel do LHC, setor 3-4. [1]
Vista do túnel do LHC, setor 3-4. [1]
O Grande Colisor de Hádrons (LHC) consiste em um túnel de 27 km de circunferência 175 metros abaixo do nível do solo, localizado no centro de pesquisa CERN, na Suíça. O LHC é um acelerador de partículas, o maior existente no planeta, cujo objetivo é tentar explicar a origem das massas de partículas elementares através da obtenção de dados sobre colisões de feixes de partículas. É possível que você já tenha ouvido falar do LHC em virtude de seu feito mais famoso, a descoberta do bóson de Higgs em 2012. Se não ouviu falar, recomendo fortemente o documentário “Particle Fever” que é um relato da saga desta descoberta, tornando compreensível e empolgante esta que é sem dúvidas a maior experiência científica já realizada no planeta.

Mas por que estou falando sobre isso em uma coluna sobre Inteligência Artificial? Dois dos experimentos do LHC, chamados ATLAS e CMS, responsáveis pela descoberta, utilizaram técnicas de aprendizagem de máquina em colaboração com cientistas da computação. Os algoritmos criados foram inicialmente condicionados utilizando simulações dos detritos de colisões de partículas e aprenderam a identificar os padrões produzidos pelo decaimento de raras partículas de Higgs entre milhões de outros eventos.

Entretanto, novas descobertas de grande impacto pelo LHC parecem agora depender de uma colaboração muito mais intensa entre físicos e especialistas em Inteligência Artificial [2]. Um workshop em novembro de 2015 foi realizado no CERN exclusivamente para este fim. O ATLAS e CMS produzem atualmente centenas de milhões de colisões por segundo e utilizam critérios simples e manualmente definidos para selecionar apenas 1 de cada mil desses eventos. A previsão para 2025 é que o número de colisões cresça 20 vezes e, claramente, métodos mais sofisticados para seleção de eventos para estudo precisarão ser criados. A seleção de exemplos mais apropriados para compor um conjunto de treinamento de modelos inteligentes é sub-área de pesquisa da Inteligência Artificial há bastante tempo [3].

Um terceiro experimento do próprio LHC, o LHCb, já utiliza técnicas de aprendizado de máquina para fazer este tipo de seleção de dados com o objetivo de descobrir partículas já conhecidas na literatura de modo que possam ser estudadas mais detalhadamente. O objetivo do ATLAS e do CMS, entretanto, é bem mais desafiador: descobrir novas partículas. Em virtude dos grandes feitos recentemente conseguidos, a técnica de aprendizagem profunda (deep learning) foi certamente o centro da discussão no workshop: como ela poderia ser apropriadamente utilizada para promover esta descoberta? Um grande dilema é que a aprendizagem profunda funciona muito bem, mas de forma não transparente. Ou seja, modelos criados com esta técnica conseguem altíssimos índices de acurácia na classificação dos mais variados tipos de padrões (ver “Máquinas que descrevem imagens“) mas é virtualmente impossível descrever o algoritmo gerado. Qual o dilema exatamente? Ao treinar um modelo de aprendizagem profunda para selecionar apenas uma milésima parte de eventos gerados pelos experimentos em detrimento dos critérios simples mas manualmente definidos de outrora, como se convencer que os dados que estariam sendo descartados realmente não são relevantes se o algoritmo utilizado para isso não foi deliberadamente escrito baseando-se em princípios da Física e, pior, não dá para ser explicado?

Apesar da inquietação por parte dos físicos, a tendência é que, de fato, o uso da técnica seja explorado. Ainda assim, limitações precisam ser vencidas. Apesar da acurácia, modelos complexos de redes neuronais profundas são lentos na previsão e requerem grandes quantidades de memória. O volume de dados a ser trabalhado pelo ATLAS e pelo CMS é certamente bastante superior ao que já foi utilizado para construção de qualquer modelo de aprendizagem profunda criado. Uma saída que vem sendo estudada é treinar redes mais simples que imitam uma rede profunda, substituindo os rótulos de classificação por previsões do modelo que se deseja imitar. No próprio workshop do CERN, Pierre Baldi, pesquisador de Inteligência Artificial da Universidade da Califórnia, sugeriu o uso de uma técnica em especial chamada de dark knowledge [4]. A maioria do conhecimento aprendido em um modelo está localizado nas probabilidades relativas dos extremamente improváveis rótulos errados. Por exemplo, um modelo poderia classificar um automóvel BMW como sendo um caminhão de lixo com uma probabilidade de 1 em 1 bilhão, mas, ainda assim, esta probabilidade seria consideravelmente maior que a de classificá-lo como uma carroça. Este conhecimento “escuro”, praticamente invisível nas probabilidades dos rótulos de classes, define uma métrica de similaridade sobre as classes possíveis que torna muito mais fácil aprender um bom classificador. Uma abordagem diferente para esta mesma idéia de compressão de modelos é proposta por Rich Caruana, pesquisador da Microsoft Research [5].

[1] Crédito da imagem: Maximilien Brice, CERN (CERN Document Server) [CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons.

[2] D Castelvecchi. Artificial intelligence called in to tackle LHC data deluge. Nature 528, 18 (2015).

[3] BT Zhang. Accelerated learning by active example selection. International Journal of Neural Systems 5, 67 (1994).

[4] G Hinton et al. Distilling the knowledge in a neural network. arXiv:1503.02531. (2015).

[5] J Ba and R Caruana. Do deep nets really need to be deep? In Advances in neural information processing systems (pp. 2654-2662) (2014).

Como citar este artigo: Hendrik Macedo. “Acelerando” o acelerador de partículas. Saense. URL: http://www.saense.com.br/2016/07/acelerando-o-acelerador-de-particulas/. Publicado em 02 de julho (2016).

Artigos de Hendrik Macedo     Home