Zobrazit minimální záznam

Explainable and transferable fungal intron models



dc.contributor.advisorKléma Jiří
dc.contributor.authorBarbora Mašková
dc.date.accessioned2024-01-24T23:51:51Z
dc.date.available2024-01-24T23:51:51Z
dc.date.issued2024-01-24
dc.identifierKOS-1240440688805
dc.identifier.urihttp://hdl.handle.net/10467/113321
dc.description.abstractCílem této práce je analyzovat implementovanou rekurentní konvoluční neuronovou síť navrženou pro detekci intronů v metagenomech hub a poskytnout vysvětlení za pomoci sekvenčních log. Hlavním cílem je najít minimální počet modelů potřebných k dosažení úplného pokrytí variability druhové rozmanitosti v říši hub s přihlédnutím k časové složitosti a výpočetní náročnosti. Zpočátku bylo vytvořeno celkem 19 párů modelů - jeden pro donor a jeden pro akceptor. Tyto dvojice byly vytvořeny na základě taxonomické klasifikace. Následně byly vytvořeny dvě metody učení modelů: jedna za pomoci augmentace dat a druhá za použití transfer learning. Po nalezení optimálních hodnot parametrů těchto metod bylo provedeno důkladné porovnání jednotlivých modelů mezi sebou. Z tohoto porovnání vyšel model natrénovaný pomocí transfer learningu jako nejlepší volba. Při porovnání modelů k určení nejmenšího počtu potřebných modelů ke klasifikaci říše hub, byl nalezena limitace použití transfer learning. Model doučený pomocí transfer learning sice lépe hodnotil doučenou část, avšak u zbytku jeho schopnost hodnotit klesla. Toto vedlo k výběru modelů naučených jinou metodou. Celkem bylo ze všech vybráno 9 modelů, které s velkou přesností klasifikují celou říši hub. Pro podpoření tohoto rozhodnutí a vysvětlení vybraných modelů byla vybrána technika zvaná Sekvenční loga. Na základě těchto log a jejich porovnání se dospělo k závěru, že modely byly vybrány vhodně.cze
dc.description.abstractThe objective of this thesis is to analyse the recurrent convolutional neural network that has been previously proposed for detecting splice sites in the fungal kingdom and to provide an explanation by employing sequence logos. The main goal is to minimise the number of models required to obtain complete coverage, taking into account time complexity and computational capacity. Initially, a total of 19 pairs of models were generated, with one model representing the donor and another model representing the acceptor. These pairings were formed based on the taxonomical classification. Subsequently, two pipelines were created: one for augmentation and another for the purpose of transfer learning. Upon establishing the optimal parameter settings, a thorough evaluation of the models was conducted, revealing the transfer model to be the superior choice. While comparing the models to determine the optimal number required, an issue with transfer learning occurred. The issue lay in the fact that the application of transfer learning resulted in an improvement in the F1 score of the particular model in question, but led to a decrease in the scores of the other models. Therefore, different kinds of models were chosen. As a result, 9 models have been selected that meet the criteria for classifying the entire fungal world. In order to justify this decision and explain the selected models, an explanatory technique known as Sequence logos was chosen. Based on these logos, it was concluded that the models were selected appropriately.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectHoubycze
dc.subjectRCNNcze
dc.subjectTransfer Learningcze
dc.subjectSekvenční logacze
dc.subjectAugmentace datcze
dc.subjectDetekce intronůcze
dc.subjectMetody vysvětlovánícze
dc.subjectMotivycze
dc.subjectFungieng
dc.subjectRCNNeng
dc.subjectTransfer Learningeng
dc.subjectSequence Logoeng
dc.subjectAugmentationeng
dc.subjectSplice Site Recognitioneng
dc.subjectExplanation methodseng
dc.subjectMotifseng
dc.titleVysvětlitelné a přenositelné modely intronů hubcze
dc.titleExplainable and transferable fungal intron modelseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereePospíšek Martin
theses.degree.disciplineBioinformatikacze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeLékařská elektronika a bioinformatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam