Statistical separation and identification by means of divergence techniques for multi-dimensional data

Statistická separace a identifikace s využitím divergenčních technik pro vícerozměrná data

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Při klasiflkaci dat obvykle narazíme na problém velkého počtu proměnných, což má za následek vyšší časovou náročnost procesu klasiflkace. V praxi je pak často výpočetní čas důležitější než přesnost separace. Práce obsahuje výsledky zkoumání vlivu předzpracování dat a redukce dimenze užitím analýzy hlavních komponent na kvalitu a rychlost klasiflkace metodou binárního divergenčního rozhodovacího stromu. Dále obsahuje výsledky klasiflkace při implementaci optimalizace výběru vhodných proměnných podle hodnoty fí-divergence. K testování byla použita Monte Carlo simulace z experimentu D0 při Fermiho národní laboratoři.

When classifying given data it is often necessary to deal with the problem of high dimension of the dataset. This results in the classification being time-consuming. In practice, the computational time is usually given priority over the accuracy of the classiflcation. This paper discusses the influence of data preprocessing and dimensionality reduction using principal component analysis on the accuracy and the speed of the classiflcation by the supervised divergence decision tree (SDDT). It also contains results of the classification by the SDDT using optimization of the variable selection process based on phi-divergences. The Monte Carlo simulation of the D0 experiment (Fermi National Laboratory) was used for the testing.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By