Machine learning for ttH mechanism Higgs boson detection from CERN ATLAS data
Metody strojového učení pro detekci ttH mechanismu produkce Higgsova bosonu
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Jedním z aspektů zkoumání subatomárních částic pomocí studia protonových srážek je schopnost identifikovat ty srážky, kde vznikají částice, které nás zajímají, jelikož v akcelerátoru, jako je Large Hadron Collider (LHC), v každém okamžiku dochází k tisícům srážek. Metody strojového učení ukázaly potenciál zlepšit úspěšnost detekce při použití jak příznaků vytvořených na základě doménové znalosti (doménové příznaky), tak těch odpovídajícím přímým měřením z detektoru (nízkoúrovňové příznaky). Jednou z částic, jejímž studiem se zabývá několik výzkumných skupin, je Higgsův boson. Cílem této práce je otestovat a porovnat několik algoritmů strojového učení a porovnat doménové příznaky oproti nízkoúrovňovým příznakům na úloze detekce kolizí, kde vzniká Higgsův boson, konkrétně jeho produkce zvaná ttH proces. Byly testovány algoritmy založené na gradient boostingu, více-úrovňové neuronové sítě (MLP) a TabNet, přičemž metody gradient boostingu dosahují nejlepších výsledků. Ukazuje se rovněž dominance doménových příznaků nad nízkoúrovňovými, nejlepších výsledků je dosaženo při jejich kombinaci. Je také ukázáno, že klasifikátory používající pouze několik nejdůležitějších příznaků mohou dosáhnout téměř tak dobrých výsledků jako ty používající všechny příznaky, s dodatečnou výhodou nižších časů trénování a větší jednoduchosti výsledného modelu. Rovněž je ukázáno, že při získání více tréninkových dat lze od klasifikátorů na příslušné úloze očekávat zlepšení výkonu.
One aspect of studying subatomic particles by observing proton-proton collision is being able to identify those collisions where the particles of interest occur, since thousands of collisions are happening in an accelerator such as the Large Hadron Collider (LHC) at any given time. Machine learning methods have shown the potential to improve the performance of the detection while using either hand-engineered features or low-level measurements from the detector as input features. One such particle, which has been studied by multiple research groups, is the Higgs boson. The aim of this thesis is to test and compare several machine learning algorithms and compare the usage of hand-engineered features with the usage of direct measurements of the detector on the task of detecting Higgs boson events, namely the ttH process. Gradient boosting, multi-layered perceptron (MLP) and TabNet algorithms were tested and the results show superior performance of gradient boosting algorithms. Hand-engineered features show superior performance as opposed to direct measurements from the detector. Combination of all types of features show the best performance. We also show that classifiers training with only the most important features can achieve results with only a small performance decrease, while on the other hand providing benefits in terms of training time and model simplicity. In addition, it is shown that for an increased amount of training data, the performance of the classifiers is expected to improve.
One aspect of studying subatomic particles by observing proton-proton collision is being able to identify those collisions where the particles of interest occur, since thousands of collisions are happening in an accelerator such as the Large Hadron Collider (LHC) at any given time. Machine learning methods have shown the potential to improve the performance of the detection while using either hand-engineered features or low-level measurements from the detector as input features. One such particle, which has been studied by multiple research groups, is the Higgs boson. The aim of this thesis is to test and compare several machine learning algorithms and compare the usage of hand-engineered features with the usage of direct measurements of the detector on the task of detecting Higgs boson events, namely the ttH process. Gradient boosting, multi-layered perceptron (MLP) and TabNet algorithms were tested and the results show superior performance of gradient boosting algorithms. Hand-engineered features show superior performance as opposed to direct measurements from the detector. Combination of all types of features show the best performance. We also show that classifiers training with only the most important features can achieve results with only a small performance decrease, while on the other hand providing benefits in terms of training time and model simplicity. In addition, it is shown that for an increased amount of training data, the performance of the classifiers is expected to improve.