Shlukovací algoritmy pro nečíselná data
Clustering algorithms for nominal data
Type of document
diplomová prácemaster thesis
Author
Jakeš Jan
Supervisor
Čepek Miroslav
Opponent
Buk Zdeněk
Field of study
Softwarové inženýrstvíStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačové grafiky a interakceRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item recordAbstract
Cílem této diplomové práce je implementace evaluačních metod shlukové analýzy dat pro software RapidMiner. V úvodu je čtenář seznámen s problematikou tykající se shlukové analýzy dat, včetně shlukovacích metod a metrik nepodobnosti. Blíže jsou popsány evaluační metody shlukové analýzy, konkrétně výpočty hodnot Rand indexu, Dunn indexu, siluety a určení typických hodnot ve shlucích. Dále se práce věnuje samotnému RapidMineru a implementací nových operátorů Rand Index operátor, Dunn Index operátor, Silhouette operátor a Density operátor. Všechny implementované operátory byly primárně určeny pro nominální data, avšak kvůli větší použitelnosti v RapidMineru byla funkcionalita rozšířena i pro zpracování numerických a smíšených dat. Na konci práce je popsáno praktické použití nových operátorů v RapidMineru, včetně testování operátorů na větších souborech dat a ověření správnosti operátory vypočítaných hodnot. The main goal of this diploma thesis is implementation of evaluation methods of cluster data analysis for RapidMiner software. In the opening, reader is introduced to the issue regarding cluster data analysis, including cluster methods and similarity measures. Evaluation methods of cluster analysis, specifically calculation of value of Rand index, Dunn index, silhouette and determination of typical values in clusters. Thesis also aims at software RapidMiner and implementation of new operators - Rand Index, Dunn Index, Silhouette and Density. All implemented operators were mainly designed to work with nominal data, but due to better applicability in RapidMiner, their functionality was expanded to process even numerical and mixed data. In the end of thesis, practical use of new operators in RapidMiner is described, including testing of operators on larger datasets and verification of values calculated by operators.
Collections
- Diplomové práce - 13139 [413]