Statistická separace a identifikace s využitím divergenčních technik pro vícerozměrná data
Statistical separation and identification by means of divergence techniques for multi-dimensional data
Type of document
bakalářská prácebachelor thesis
Author
Jarůšková Kristina
Supervisor
Kůs Václav
Opponent
Franc Jiří
Field of study
Matematické inženýrstvíStudy program
Aplikace přírodních vědInstitutions assigning rank
katedra matematikyDefended
2018-09-06Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Při klasiflkaci dat obvykle narazíme na problém velkého počtu proměnných, což má za následek vyšší časovou náročnost procesu klasiflkace. V praxi je pak často výpočetní čas důležitější než přesnost separace. Práce obsahuje výsledky zkoumání vlivu předzpracování dat a redukce dimenze užitím analýzy hlavních komponent na kvalitu a rychlost klasiflkace metodou binárního divergenčního rozhodovacího stromu. Dále obsahuje výsledky klasiflkace při implementaci optimalizace výběru vhodných proměnných podle hodnoty fí-divergence. K testování byla použita Monte Carlo simulace z experimentu D0 při Fermiho národní laboratoři. When classifying given data it is often necessary to deal with the problem of high dimension of the dataset. This results in the classification being time-consuming. In practice, the computational time is usually given priority over the accuracy of the classiflcation. This paper discusses the influence of data preprocessing and dimensionality reduction using principal component analysis on the accuracy and the speed of the classiflcation by the supervised divergence decision tree (SDDT). It also contains results of the classification by the SDDT using optimization of the variable selection process based on phi-divergences. The Monte Carlo simulation of the D0 experiment (Fermi National Laboratory) was used for the testing.
Collections
- Bakalářské práce - 14101 [308]