Statistická separace a identifikace s využitím divergenčních technik pro vícerozměrná data

Jarůšková Kristina

Statistical separation and identification by means of divergence techniques for multi-dimensional data

Type of document

bakalářská práce
bachelor thesis

Author

Jarůšková Kristina

Supervisor

Kůs Václav

Opponent

Franc Jiří

Field of study

Matematické inženýrství

Study program

Aplikace přírodních věd

Institutions assigning rank

katedra matematiky

Defended

2018-09-06

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Při klasiflkaci dat obvykle narazíme na problém velkého počtu proměnných, což má za následek vyšší časovou náročnost procesu klasiflkace. V praxi je pak často výpočetní čas důležitější než přesnost separace. Práce obsahuje výsledky zkoumání vlivu předzpracování dat a redukce dimenze užitím analýzy hlavních komponent na kvalitu a rychlost klasiflkace metodou binárního divergenčního rozhodovacího stromu. Dále obsahuje výsledky klasiflkace při implementaci optimalizace výběru vhodných proměnných podle hodnoty fí-divergence. K testování byla použita Monte Carlo simulace z experimentu D0 při Fermiho národní laboratoři.

When classifying given data it is often necessary to deal with the problem of high dimension of the dataset. This results in the classification being time-consuming. In practice, the computational time is usually given priority over the accuracy of the classiflcation. This paper discusses the influence of data preprocessing and dimensionality reduction using principal component analysis on the accuracy and the speed of the classiflcation by the supervised divergence decision tree (SDDT). It also contains results of the classification by the SDDT using optimization of the variable selection process based on phi-divergences. The Monte Carlo simulation of the D0 experiment (Fermi National Laboratory) was used for the testing.

URI

http://hdl.handle.net/10467/79911

Collections

Bakalářské práce - 14101 [308]