Separovatelnost shluků v mnoharozměrných biomedicinských datech
Cluster separability in multidimensional biomedical data
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Ivana Klikarová
Vedoucí práce
Bakštein Eduard
Oponent práce
Šimek Michal
Studijní program
Lékařská elektronika a bioinformatikaInstituce přidělující hodnost
katedra teorie obvodůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato studie představuje přehled metod pro odhad počtu shluků aplikovaných na simulovaná i reálná biomedicínská data. Byla měřena kvalita predikce počtu shluků pomocí syntetických datasetů, které napodobují vlastnosti reálných biomedicínských dat. Tyto soubory dat se liší z hlediska variability, úrovně šumu a separability shluků, což umožňuje systematické hodnocení robustnosti metod. Každý bod je přiřazen ke shluku a slouží jako reference pro hodnocení přesnosti shlukování. Shluky charakterizujeme pomocí poměrů vzdáleností ve shluku a mezi nimi. Kromě toho aplikujeme metody shlukování na reálná biomedicínská data získaná z Národního ústavu duševního zdraví (NÚDZ) se zaměřením na proměnné související s COVID nákazou. Před odhadem shlukování je provedena explorační analýza dat, předzpracování dat a analýza hlavních komponent. Cílem studie je poskytnout poznatky o přesnosti metod pro odhad počtu shluků a zda je lze použít na reálná data. This study presents a comprehensive evaluation of a number of cluster estimation methods applied to both simulated and real biomedical data. We use methodology for assessing clustering quality using synthetic datasets that mimic real-world biomedical data characteristics. These datasets vary in inter-individual variability, noise levels, and cluster separability, allowing for systematic evaluation of clustering methods' robustness. Each data point is assigned to a ground truth cluster, serving as reference labels for evaluating clustering accuracy. We characterize clusters using interclass-to-between-class ratios and analyze the performance of clustering algorithms across different dataset dimensions. Additionally, we apply clustering methods to real biomedical data obtained from the National Institute of Mental Health, focusing on COVID-related variables. Exploratory data analysis, preprocessing, and principal component analysis are conducted before clustering estimation. The study aims to provide insights into the performance of clustering methods and their applicability to real-world biomedical data.
Kolekce
- Bakalářské práce - 13131 [124]