Semantic Biclustering

dc.contributor.advisor Kléma, Jiří
dc.contributor.author Malinka, František
dc.contributor.referee Kliegr, Tomáš
dc.date.accessioned 2021-12-02T10:19:15Z
dc.date.available 2021-12-02T10:19:15Z
dc.date.issued 2021-11-20
dc.description.abstract Tato disertační práce se zaměřuje na problém hledání interpretovatelných a prediktivních vzorů, které jsou vyjádřeny formou dvojshluků, se specializací na biologická data. Prezentované metody jsou souhrnně označovány jako sémantické dvojshlukování, jedná se o podobor dolování dat. Termín sémantické dvojshlukování je použit z toho důvodu, že zohledňuje proces hledání koherentních podmnožin řádků a sloupců, tedy dvojshluků, v 2-dimensionální binární matici a zárove ň bere také v potaz sémantický význam prvků v těchto dvojshlucích. Ačkoliv byla práce motivována biologicky orientovanými daty, vyvinuté algoritmy jsou obecně aplikovatelné v jakémkoli jiném výzkumném oboru. Je nutné pouze dodržet požadavek na formát vstupních dat. Disertační práce představuje dva originální a v tomto ohledu i základní přístupy pro hledání sémantických dvojshluků, jako je Bicluster enrichment analysis a Rule a tree learning. Jelikož tyto metody nevyužívají vlastní hierarchické uspořádání termů v daných ontologiích, obecně je běh těchto algoritmů dlouhý čin může docházet k indukci hypotéz s redundantními termy. Z toho důvodu byl vytvořen nový operátor zjemnění. Tento operátor byl včleněn do dobře známého algoritmu CN2, kde zavádí dvě redukční procedury: Redundant Generalization a Redundant Non-potential. Obě procedury pomáhají dramaticky prořezat prohledávaný prostor pravidel a tím umožňují urychlit proces indukce pravidel v porovnání s tradičním operátorem zjemnění tak, jak je původně prezentován v CN2. Celý algoritmus spolu s redukčními metodami je publikován ve formě R balííčku, který jsme nazvali sem1R. Abychom ukázali i možnost praktického užití metody sémantického dvojshlukování na reálných biologických problémech, v disertační práci dále popisujeme a specificky upravujeme algoritmus sem1R pro dv+ úlohy. Zaprvé, studujeme praktickou aplikaci algoritmu sem1R v analýze E-3 ubikvitin ligázy v trávicí soustavě s ohledem na potenciál regenerace tkáně. Zadruhé, kromě objevování dvojshluků v dat ech genové exprese, adaptujeme algoritmus sem1R pro hledání potenciálne patogenních genetických variant v kohortě pacientů. cs
dc.description.abstract This thesis focuses on the problem of finding interpretable and predic tive patterns, which are expressed in the form of biclusters, with an orientation to biological data. The presented methods are collectively called semantic biclustering, as a subfield of data mining. The term semantic biclustering is used here because it reflects both a process of finding coherent subsets of rows and columns in a 2-dimensional binary matrix and simultaneously takes into account a mutual semantic meaning of elements in such biclusters. In spite of focusing on applications of algorithms in biological data, the developed algorithms are generally applicable to any other research field, there are only limitations on the format of the input data. The thesis introduces two novel, and in that context basic, approaches for finding semantic biclusters, as Bicluster enrichment analysis and Rule and tree learning. Since these methods do not exploit the native hierarchical order of terms of input ontologies, the run-time of algorithms is relatively long in general or an induced hypothesis might have terms that are redundant. For this reason, a new refinement operator has been invented. The refinement operator was incorporated into the well-known CN2 algorithm and uses two reduction procedures: Redundant Generalization and Redundant Non-potential, both of which help to dramatically prune the rule space and consequently, speed-up the entire process of rule induction in comparison with the traditional refinement operator as is presented in CN2. The reduction procedures were published as an R package that we called sem1R. To show a possible practical usage of semantic biclustering in real biological problems, the thesis also describes and specifically adapts the algorithm for two real biological problems. Firstly, we studied a practical application of sem1R algorithm in an analysis of E-3 ubiquitin ligase in the gastrointestinal tract with respect to tissue regeneration potential. Secondly, besides discovering biclusters in gene expression data, we adapted the sem1R algorithm for a different task, concretely for finding potentially pathogenic genetic variants in a cohort of patients. en
dc.identifier KOS-591608537305
dc.identifier.uri http://hdl.handle.net/10467/98706
dc.publisher České vysoké učení technické v Praze cs
dc.publisher Czech Technical University in Prague en
dc.rights A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. en
dc.rights Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. cs
dc.subject dvojshlukování cs
dc.subject symbolické strojové učení cs
dc.subject ontologie cs
dc.subject taxonomie cs
dc.subject genová exprese cs
dc.subject analýza obohacení cs
dc.subject postranní znalost cs
dc.subject sémantika cs
dc.subject biclustering en
dc.subject symbolic machine learning en
dc.subject ontology en
dc.subject taxonomy en
dc.subject gene expression en
dc.subject enrichment analysis en
dc.subject background knowledge en
dc.subject semantics en
dc.title Sémantické dvojshlukování cs
dc.title Semantic Biclustering en
dc.type doctoral thesis en
dspace.entity.type Publication
relation.isAdvisorOfPublication feed6da5-463d-4987-9576-219aefd05943
relation.isAdvisorOfPublication.latestForDiscovery feed6da5-463d-4987-9576-219aefd05943
relation.isAuthorOfPublication 261c8d53-0506-4ccc-9cb4-1a470589f0a3
relation.isAuthorOfPublication.latestForDiscovery 261c8d53-0506-4ccc-9cb4-1a470589f0a3
relation.isRefereeOfPublication 98ed86f8-43bc-4532-89e5-1e5ca585c4aa
relation.isRefereeOfPublication.latestForDiscovery 98ed86f8-43bc-4532-89e5-1e5ca585c4aa
theses.degree.discipline Umělá inteligence a biokybernetika cs
theses.degree.grantor katedra počítačů cs
theses.degree.programme Elektrotechnika a informatika cs

Files

Original bundle

Now showing 1 - 1 of 1
Name:
F3-D-2021-Malinka-Frantisek-thesis_template_malinka6_18_10_2021.pdf
Size:
9.46 MB
Format:
Adobe Portable Document Format
Description:
PLNY_TEXT