Cluster separability in multidimensional biomedical data

Separovatelnost shluků v mnoharozměrných biomedicinských datech

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Tato studie představuje přehled metod pro odhad počtu shluků aplikovaných na simulovaná i reálná biomedicínská data. Byla měřena kvalita predikce počtu shluků pomocí syntetických datasetů, které napodobují vlastnosti reálných biomedicínských dat. Tyto soubory dat se liší z hlediska variability, úrovně šumu a separability shluků, což umožňuje systematické hodnocení robustnosti metod. Každý bod je přiřazen ke shluku a slouží jako reference pro hodnocení přesnosti shlukování. Shluky charakterizujeme pomocí poměrů vzdáleností ve shluku a mezi nimi. Kromě toho aplikujeme metody shlukování na reálná biomedicínská data získaná z Národního ústavu duševního zdraví (NÚDZ) se zaměřením na proměnné související s COVID nákazou. Před odhadem shlukování je provedena explorační analýza dat, předzpracování dat a analýza hlavních komponent. Cílem studie je poskytnout poznatky o přesnosti metod pro odhad počtu shluků a zda je lze použít na reálná data.

This study presents a comprehensive evaluation of a number of cluster estimation methods applied to both simulated and real biomedical data. We use methodology for assessing clustering quality using synthetic datasets that mimic real-world biomedical data characteristics. These datasets vary in inter-individual variability, noise levels, and cluster separability, allowing for systematic evaluation of clustering methods' robustness. Each data point is assigned to a ground truth cluster, serving as reference labels for evaluating clustering accuracy. We characterize clusters using interclass-to-between-class ratios and analyze the performance of clustering algorithms across different dataset dimensions. Additionally, we apply clustering methods to real biomedical data obtained from the National Institute of Mental Health, focusing on COVID-related variables. Exploratory data analysis, preprocessing, and principal component analysis are conducted before clustering estimation. The study aims to provide insights into the performance of clustering methods and their applicability to real-world biomedical data.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By