Strojové učení bez učitele a detekce odlehlých hodnot v rozsáhlých archívech astronomických spekter
Unsupervised Learning and Outlier Detection in Large Archives of Astronomical Spectra
Typ dokumentu
diplomová prácemaster thesis
Autor
Shakurova Ksenia
Vedoucí práce
Škoda Petr
Oponent práce
Jiřina Marcel
Studijní obor
Znalostní inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
18101Obhájeno
2016-06-16Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zabývá studiem vlastností několika populárních algoritmů shlukovací analýzy, např. DBSCAN, K-means, Biclustering a dalších pro astronomické účely. V práci se také zkoumají metody redukce dimenzionality a algoritmus LOF pro detekci odlehlých hodnot. Porovnání výkonnosti metod je zajištěno prostřednictvím experimentů na sadě snímků spekter z observatoře Ondřejova. Metody, které vykázaly nejlepší výsledky, jsou pak otestovány na větším archivu spekter získaných s teleskopu LAMOST. Výsledky experimentů jsou důkladně analyzovány. In this thesis we examine popular clustering algorithms such as DBSCAN, Biclustering, K-means, etc., on the task of spectra clustering. In addition, we investigate several dimensionality reduction approaches and the algorithm LOF for the outliers detection. We conduct our experiment in order to resolve the problem of spectra clustering. We select the most promising methods according to their performance on the Ondřejov dataset and then apply them on the larger LAMOST dataset. Next, we implement framework which incorporates mentioned algorithms including our implementation of LOF adapted for Apache Spark. Finally, we discuss obtained results.
Kolekce
- Diplomové práce - 18101 [216]