Show simple item record

Use of data mining for missing values imputation in categorical data sets with focus on association rules



dc.contributor.advisorKučerová Jana
dc.contributor.authorKaiser Jiří
dc.date.accessioned2011-12-15T11:13:40Z
dc.date.available2011-12-15T11:13:40Z
dc.date.issued2011-12-15
dc.date.submitted2011-12-15 12:12:57.0
dc.identifierKOS-43071901905
dc.identifier.urihttp://hdl.handle.net/10467/8010
dc.description.abstractTato doktorská disertační práce představuje výzkum autora věnující se problematice nahrazování chybějících hodnot v kategoriálních datech s pomocí metod data miningu. První část práce obsahuje shrnutí v současnosti nejčastěji používaných metod pro řešení problematiky chybějících hodnot v datových souborech a představuje kritéria a model pro hodnocení metod pro doplňování chybějících hodnot. Na základě nedostatků současných metod pro doplňování chybějících hodnot je stanoven cíl práce. Cílem práce je navrhnout algoritmus pro doplňování chybějících hodnot v kategoriálních datech, který může zvýšit přesnost odhadu chybějících hodnot. Následující část práce popisuje výběr metody data miningu jako základu pro navrhovaný algoritmus. Hlavní část práce popisuje navrhovaný algoritmus pro doplňování chybějících hodnot, který využívá asociační pravidla. Algoritmus je navržen ve třech variantách. Dvě varianty algoritmu byly implementovány a jedna z nich následně testována. Nový algoritmus byl testován na přesnost doplnění chybějících hodnot a porovnán s metodou doplňování chybějících hodnot nejčastěji se vyskytující hodnotou atributu. Výsledky testů ukazují, že navržený algoritmus poskytl lepší výsledky než metoda nahrazení chybějících hodnot atributu nejčastěji se vyskytující hodnotou. V poslední části práce jsou uvedeny možnosti dalšího rozvoje práce.
dc.description.abstractThis thesis presents the author's research dedicated to the issue of missing values imputation in categorical data sets with use of data mining methods. The first part of the work introduces the most common methods for solution of missing values problem and shows criteria and model for evaluation of missing values imputation methods. The work is based on the weak points of the most common methods for solution of missing values problem. The goal is to develop an algorithm for missing values imputation in categorical data sets which can increase accuracy of missing values imputation. The following part of the thesis describes the selection of data mining method as a base for new missing values imputation algorithm. The main part of the thesis describes newly developed algorithm for missing values imputation which uses association rules. The algorithm is developed in three variants. Two variants of the algorithm were implemented and one of them was tested. The new algorithm was tested on accuracy of missing values imputation in comparison with the method of missing values imputation by the most common attribute value. The results of the tests show that the new algorithm got better results than the most common attribute value method. The last part of the thesis shows possibilities of additional research.eng
dc.language.isocze
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one’s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfeng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfcze
dc.subjectchybějící hodnoty, data mining, asociační pravidlacze
dc.titleVyužití data miningu pro nahrazení chybějících hodnot v kategoriálních datech se zaměřením na asociační pravidla
dc.titleUse of data mining for missing values imputation in categorical data sets with focus on association ruleseng
dc.typedisertační prácecze
dc.date.updated2011-12-15T11:13:40Z
dc.date.accepted2011-06-03 00:00:00.0
dc.contributor.refereeMolnár Zdeněk
dc.description.departmentkatedra inženýrské informatikycze
theses.degree.namePh.D.cze
theses.degree.disciplineSystémové inženýrství ve stavebnictví a investiční výstavběcze
theses.degree.grantorFakulta stavebnícze
theses.degree.programmeStavební inženýrstvícze
evskp.contactČVUTcze


Files in this item


This item appears in the following Collection(s)

Show simple item record