Modelování rozsáhlých souborů diskrétních veličin

Šárka Jozová

Modeling of Extensive Files of Discrete Data

Typ dokumentu

disertační práce
doctoral thesis

Autor

Šárka Jozová

Vedoucí práce

Nagy Ivan

Oponent práce

Matoušek Václav

Studijní obor

Inženýrská informatika v dopravě a spojích

Studijní program

Inženýrská informatika

Instituce přidělující hodnost

ústav aplikované matematiky

Obhájeno

2023-10-06

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Analýza dat je důležitou metodou pro mnoho rozhodovacích procesů, které se používají k získávání infomrací z dat. Běžnými zdroji dat jsou dotazníky, které primárně poskytují diskrétní údaje. Analýza diskrétních dat často selhává v důsledku vysoké dimenze a velkého počtu parametrů. Hledání řešení těchto problémů je proto zásadní a užitečné. Disertační práce se zabývá predikcí diskrétních dat z dotazníků z oblasti dopravy a medicíny. Navrhované řešení je založené na modelování vysvětlujjíccích veličin pomocí marginálních směsí (modely jednotlivých veličin za předpokladu jejich nezávislosti) a konstrukci kategorických predikčních modelů lokálně na nalezených klastrech. Tento přístup snižuje počet parametrů a celkovou dimenzi modelu díky předpokladů nezávislosti směsí a použití binomického rozdělení v komponentách těchto směsí. K ověření přesnosti zkonstruovaného predikčního modelu jsou provedeny experimenty s využitím reálných dat. Výsledky jsou pak porovnány s existujícími predikčními metodami, konkrétně k-nejbližší sousedé, rozhodovací stromy, neuronové sítě, logistická regrese, naivní Bayes a fuzzy pravidla.

Data analysis is an important for many decision-making processes that are used to extract information from data. Common data sources are questionnaires, which provide primarily discrete data. The analysis of discrete data often fails due to the high dimension and the large number of parameters, Therefore, finding solutions to these problems is essential and useful. The thesis deals with the prediction of discrete data from questionnaires in the field of transportation and medicine. The proposed solution is based on modeling of the explanatory variables using marginal mixtures (models of individual variables under the assumption of their independence) and the construction of categorical prediction models locally on found clusters. This approach reduces the number of parameters and the overall dimension of the model by assuming the independence of the mixtures and using the binomial distribution in the components of these mixtures. To verify the accuracy of the constructed prediction model, experiments are performed using real data. The results are then compared with existing prediction methods, speciallyy k-nearest neighbor, decision tree, neural networks, logistic regression, naive Bayes, and fuzzy rules.