Statistical separation and identification by means of divergence techniques for multi-dimensional data
Statistická separace a identifikace s využitím divergenčních technik pro vícerozměrná data
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Při klasiflkaci dat obvykle narazíme na problém velkého počtu proměnných, což má za následek vyšší časovou náročnost procesu klasiflkace. V praxi je pak často výpočetní čas důležitější než přesnost separace. Práce obsahuje výsledky zkoumání vlivu předzpracování dat a redukce dimenze užitím analýzy hlavních komponent na kvalitu a rychlost klasiflkace metodou binárního divergenčního rozhodovacího stromu. Dále obsahuje výsledky klasiflkace při implementaci optimalizace výběru vhodných proměnných podle hodnoty fí-divergence. K testování byla použita Monte Carlo simulace z experimentu D0 při Fermiho národní laboratoři.
When classifying given data it is often necessary to deal with the problem of high dimension of the dataset. This results in the classification being time-consuming. In practice, the computational time is usually given priority over the accuracy of the classiflcation. This paper discusses the influence of data preprocessing and dimensionality reduction using principal component analysis on the accuracy and the speed of the classiflcation by the supervised divergence decision tree (SDDT). It also contains results of the classification by the SDDT using optimization of the variable selection process based on phi-divergences. The Monte Carlo simulation of the D0 experiment (Fermi National Laboratory) was used for the testing.
When classifying given data it is often necessary to deal with the problem of high dimension of the dataset. This results in the classification being time-consuming. In practice, the computational time is usually given priority over the accuracy of the classiflcation. This paper discusses the influence of data preprocessing and dimensionality reduction using principal component analysis on the accuracy and the speed of the classiflcation by the supervised divergence decision tree (SDDT). It also contains results of the classification by the SDDT using optimization of the variable selection process based on phi-divergences. The Monte Carlo simulation of the D0 experiment (Fermi National Laboratory) was used for the testing.