Prediction of infectious diseases during a medical outreach
Predikce počtu infekčních onemocnění během lékařského výjezdu
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
V rámci této práci byl vytvořen prediktivní model přijímající data ve formátu OMOP CDM pro určení druhů infekčních onemocnění a počtu nakažených pro budoucí lékařské výjezdy v Ugandě. Při řešení tohoto problému byly porovnány algoritmy XGBoost, neuronová síť, naivný Bayesův klasifikátor, metoda podpůrných vektorů a náhodný les. Všechny tyto algoritmy strojového učení byly natrénovány na datech z předchozích lékařských výjezdů od neziskové organizace EMOTER a Ugandského statistického úřadu. Nejlepší přesnosti a průměrného F1 skóre u všech klasifikačních tříd dosáhl algoritmus XGBoost. V rámci práce byla také zjištěna důležitost jednotlivých faktorů při stanovení druhů onemocnění a počtu nakažených, přičemž věk pacientů se ukázal jako nejvýznamnější faktor.
In this work, a predictive model, receiving data in OMOP CDM format, was developed to determine infectious disease types and numbers of infected for future medical outreaches in Uganda. XGBoost, neural network, naive Bayes classifier, support vector machine and random forest algorithms were compared in solving this problem. All these machine learning algorithms were trained on data from previous medical outreaches by the non-profit organisation EMOTER and the Uganda Bureau of Statistics. The best accuracy and average F1 score was achieved by the XGBoost algorithm. The work also identified the importance of different factors in determining the types of disease and number of infected, with the age of the patients emerging as the most significant factor.
In this work, a predictive model, receiving data in OMOP CDM format, was developed to determine infectious disease types and numbers of infected for future medical outreaches in Uganda. XGBoost, neural network, naive Bayes classifier, support vector machine and random forest algorithms were compared in solving this problem. All these machine learning algorithms were trained on data from previous medical outreaches by the non-profit organisation EMOTER and the Uganda Bureau of Statistics. The best accuracy and average F1 score was achieved by the XGBoost algorithm. The work also identified the importance of different factors in determining the types of disease and number of infected, with the age of the patients emerging as the most significant factor.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.