Shlukovací algoritmy pro nečíselná data
Clustering algorithms for nominal data
Typ dokumentu
diplomová prácemaster thesis
Autor
Jakeš Jan
Vedoucí práce
Čepek Miroslav
Oponent práce
Buk Zdeněk
Studijní obor
Softwarové inženýrstvíStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačové grafiky a interakcePráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Cílem této diplomové práce je implementace evaluačních metod shlukové analýzy dat pro software RapidMiner. V úvodu je čtenář seznámen s problematikou tykající se shlukové analýzy dat, včetně shlukovacích metod a metrik nepodobnosti. Blíže jsou popsány evaluační metody shlukové analýzy, konkrétně výpočty hodnot Rand indexu, Dunn indexu, siluety a určení typických hodnot ve shlucích. Dále se práce věnuje samotnému RapidMineru a implementací nových operátorů Rand Index operátor, Dunn Index operátor, Silhouette operátor a Density operátor. Všechny implementované operátory byly primárně určeny pro nominální data, avšak kvůli větší použitelnosti v RapidMineru byla funkcionalita rozšířena i pro zpracování numerických a smíšených dat. Na konci práce je popsáno praktické použití nových operátorů v RapidMineru, včetně testování operátorů na větších souborech dat a ověření správnosti operátory vypočítaných hodnot. The main goal of this diploma thesis is implementation of evaluation methods of cluster data analysis for RapidMiner software. In the opening, reader is introduced to the issue regarding cluster data analysis, including cluster methods and similarity measures. Evaluation methods of cluster analysis, specifically calculation of value of Rand index, Dunn index, silhouette and determination of typical values in clusters. Thesis also aims at software RapidMiner and implementation of new operators - Rand Index, Dunn Index, Silhouette and Density. All implemented operators were mainly designed to work with nominal data, but due to better applicability in RapidMiner, their functionality was expanded to process even numerical and mixed data. In the end of thesis, practical use of new operators in RapidMiner is described, including testing of operators on larger datasets and verification of values calculated by operators.
Kolekce
- Diplomové práce - 13139 [419]