Metody strojového učení pro detekci ttH mechanismu produkce Higgsova bosonu
Machine learning for ttH mechanism Higgs boson detection from CERN ATLAS data
Typ dokumentu
diplomová prácemaster thesis
Autor
Jan Presperín
Vedoucí práce
Kybic Jan
Oponent práce
Flach Boris
Studijní obor
Datové vědyStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Jedním z aspektů zkoumání subatomárních částic pomocí studia protonových srážek je schopnost identifikovat ty srážky, kde vznikají částice, které nás zajímají, jelikož v akcelerátoru, jako je Large Hadron Collider (LHC), v každém okamžiku dochází k tisícům srážek. Metody strojového učení ukázaly potenciál zlepšit úspěšnost detekce při použití jak příznaků vytvořených na základě doménové znalosti (doménové příznaky), tak těch odpovídajícím přímým měřením z detektoru (nízkoúrovňové příznaky). Jednou z částic, jejímž studiem se zabývá několik výzkumných skupin, je Higgsův boson. Cílem této práce je otestovat a porovnat několik algoritmů strojového učení a porovnat doménové příznaky oproti nízkoúrovňovým příznakům na úloze detekce kolizí, kde vzniká Higgsův boson, konkrétně jeho produkce zvaná ttH proces. Byly testovány algoritmy založené na gradient boostingu, více-úrovňové neuronové sítě (MLP) a TabNet, přičemž metody gradient boostingu dosahují nejlepších výsledků. Ukazuje se rovněž dominance doménových příznaků nad nízkoúrovňovými, nejlepších výsledků je dosaženo při jejich kombinaci. Je také ukázáno, že klasifikátory používající pouze několik nejdůležitějších příznaků mohou dosáhnout téměř tak dobrých výsledků jako ty používající všechny příznaky, s dodatečnou výhodou nižších časů trénování a větší jednoduchosti výsledného modelu. Rovněž je ukázáno, že při získání více tréninkových dat lze od klasifikátorů na příslušné úloze očekávat zlepšení výkonu. One aspect of studying subatomic particles by observing proton-proton collision is being able to identify those collisions where the particles of interest occur, since thousands of collisions are happening in an accelerator such as the Large Hadron Collider (LHC) at any given time. Machine learning methods have shown the potential to improve the performance of the detection while using either hand-engineered features or low-level measurements from the detector as input features. One such particle, which has been studied by multiple research groups, is the Higgs boson. The aim of this thesis is to test and compare several machine learning algorithms and compare the usage of hand-engineered features with the usage of direct measurements of the detector on the task of detecting Higgs boson events, namely the ttH process. Gradient boosting, multi-layered perceptron (MLP) and TabNet algorithms were tested and the results show superior performance of gradient boosting algorithms. Hand-engineered features show superior performance as opposed to direct measurements from the detector. Combination of all types of features show the best performance. We also show that classifiers training with only the most important features can achieve results with only a small performance decrease, while on the other hand providing benefits in terms of training time and model simplicity. In addition, it is shown that for an increased amount of training data, the performance of the classifiers is expected to improve.
Kolekce
- Diplomové práce - 13136 [892]