Vysvětlitelné a přenositelné modely intronů hub

Barbora Mašková

Explainable and transferable fungal intron models

dc.contributor.advisor	Kléma Jiří
dc.contributor.author	Barbora Mašková
dc.date.accessioned	2024-01-24T23:51:51Z
dc.date.available	2024-01-24T23:51:51Z
dc.date.issued	2024-01-24
dc.identifier	KOS-1240440688805
dc.identifier.uri	http://hdl.handle.net/10467/113321
dc.description.abstract	Cílem této práce je analyzovat implementovanou rekurentní konvoluční neuronovou síť navrženou pro detekci intronů v metagenomech hub a poskytnout vysvětlení za pomoci sekvenčních log. Hlavním cílem je najít minimální počet modelů potřebných k dosažení úplného pokrytí variability druhové rozmanitosti v říši hub s přihlédnutím k časové složitosti a výpočetní náročnosti. Zpočátku bylo vytvořeno celkem 19 párů modelů - jeden pro donor a jeden pro akceptor. Tyto dvojice byly vytvořeny na základě taxonomické klasifikace. Následně byly vytvořeny dvě metody učení modelů: jedna za pomoci augmentace dat a druhá za použití transfer learning. Po nalezení optimálních hodnot parametrů těchto metod bylo provedeno důkladné porovnání jednotlivých modelů mezi sebou. Z tohoto porovnání vyšel model natrénovaný pomocí transfer learningu jako nejlepší volba. Při porovnání modelů k určení nejmenšího počtu potřebných modelů ke klasifikaci říše hub, byl nalezena limitace použití transfer learning. Model doučený pomocí transfer learning sice lépe hodnotil doučenou část, avšak u zbytku jeho schopnost hodnotit klesla. Toto vedlo k výběru modelů naučených jinou metodou. Celkem bylo ze všech vybráno 9 modelů, které s velkou přesností klasifikují celou říši hub. Pro podpoření tohoto rozhodnutí a vysvětlení vybraných modelů byla vybrána technika zvaná Sekvenční loga. Na základě těchto log a jejich porovnání se dospělo k závěru, že modely byly vybrány vhodně.	cze
dc.description.abstract	The objective of this thesis is to analyse the recurrent convolutional neural network that has been previously proposed for detecting splice sites in the fungal kingdom and to provide an explanation by employing sequence logos. The main goal is to minimise the number of models required to obtain complete coverage, taking into account time complexity and computational capacity. Initially, a total of 19 pairs of models were generated, with one model representing the donor and another model representing the acceptor. These pairings were formed based on the taxonomical classification. Subsequently, two pipelines were created: one for augmentation and another for the purpose of transfer learning. Upon establishing the optimal parameter settings, a thorough evaluation of the models was conducted, revealing the transfer model to be the superior choice. While comparing the models to determine the optimal number required, an issue with transfer learning occurred. The issue lay in the fact that the application of transfer learning resulted in an improvement in the F1 score of the particular model in question, but led to a decrease in the scores of the other models. Therefore, different kinds of models were chosen. As a result, 9 models have been selected that meet the criteria for classifying the entire fungal world. In order to justify this decision and explain the selected models, an explanatory technique known as Sequence logos was chosen. Based on these logos, it was concluded that the models were selected appropriately.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Houby	cze
dc.subject	RCNN	cze
dc.subject	Transfer Learning	cze
dc.subject	Sekvenční loga	cze
dc.subject	Augmentace dat	cze
dc.subject	Detekce intronů	cze
dc.subject	Metody vysvětlování	cze
dc.subject	Motivy	cze
dc.subject	Fungi	eng
dc.subject	RCNN	eng
dc.subject	Transfer Learning	eng
dc.subject	Sequence Logo	eng
dc.subject	Augmentation	eng
dc.subject	Splice Site Recognition	eng
dc.subject	Explanation methods	eng
dc.subject	Motifs	eng
dc.title	Vysvětlitelné a přenositelné modely intronů hub	cze
dc.title	Explainable and transferable fungal intron models	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Pospíšek Martin
theses.degree.discipline	Bioinformatika	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Lékařská elektronika a bioinformatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2024-Maskova-Barbora-pri ...
Velikost:: 18.69Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2024-posudek-Klema_Jiri.pdf
Velikost:: 115.9Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2024-Maskova-Barbora-the ...
Velikost:: 10.15Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2024-posudek-Pospisek_Ma ...
Velikost:: 230.6Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [966]

Zobrazit minimální záznam