Využití data miningu pro nahrazení chybějících hodnot v kategoriálních datech se zaměřením na asociační pravidla
Use of data mining for missing values imputation in categorical data sets with focus on association rules
Type of document
disertační práceAuthor
Kaiser Jiří
Supervisor
Kučerová Jana
Opponent
Molnár Zdeněk
Field of study
Systémové inženýrství ve stavebnictví a investiční výstavběStudy program
Stavební inženýrstvíInstitutions assigning rank
Fakulta stavebníDefended
2011-06-03 00:00:00.0Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one’s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item recordAbstract
Tato doktorská disertační práce představuje výzkum autora věnující se problematice nahrazování chybějících hodnot v kategoriálních datech s pomocí metod data miningu. První část práce obsahuje shrnutí v současnosti nejčastěji používaných metod pro řešení problematiky chybějících hodnot v datových souborech a představuje kritéria a model pro hodnocení metod pro doplňování chybějících hodnot. Na základě nedostatků současných metod pro doplňování chybějících hodnot je stanoven cíl práce. Cílem práce je navrhnout algoritmus pro doplňování chybějících hodnot v kategoriálních datech, který může zvýšit přesnost odhadu chybějících hodnot. Následující část práce popisuje výběr metody data miningu jako základu pro navrhovaný algoritmus. Hlavní část práce popisuje navrhovaný algoritmus pro doplňování chybějících hodnot, který využívá asociační pravidla. Algoritmus je navržen ve třech variantách. Dvě varianty algoritmu byly implementovány a jedna z nich následně testována. Nový algoritmus byl testován na přesnost doplnění chybějících hodnot a porovnán s metodou doplňování chybějících hodnot nejčastěji se vyskytující hodnotou atributu. Výsledky testů ukazují, že navržený algoritmus poskytl lepší výsledky než metoda nahrazení chybějících hodnot atributu nejčastěji se vyskytující hodnotou. V poslední části práce jsou uvedeny možnosti dalšího rozvoje práce. This thesis presents the author's research dedicated to the issue of missing values imputation in categorical data sets with use of data mining methods. The first part of the work introduces the most common methods for solution of missing values problem and shows criteria and model for evaluation of missing values imputation methods. The work is based on the weak points of the most common methods for solution of missing values problem. The goal is to develop an algorithm for missing values imputation in categorical data sets which can increase accuracy of missing values imputation. The following part of the thesis describes the selection of data mining method as a base for new missing values imputation algorithm. The main part of the thesis describes newly developed algorithm for missing values imputation which uses association rules. The algorithm is developed in three variants. Two variants of the algorithm were implemented and one of them was tested. The new algorithm was tested on accuracy of missing values imputation in comparison with the method of missing values imputation by the most common attribute value. The results of the tests show that the new algorithm got better results than the most common attribute value method. The last part of the thesis shows possibilities of additional research.
View/ Open
Collections
- Disertační práce - 11000 [439]
The following license files are associated with this item: