Vysvětlitelné a přenositelné modely intronů hub
Explainable and transferable fungal intron models
Typ dokumentu
diplomová prácemaster thesis
Autor
Barbora Mašková
Vedoucí práce
Kléma Jiří
Oponent práce
Pospíšek Martin
Studijní obor
BioinformatikaStudijní program
Lékařská elektronika a bioinformatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Cílem této práce je analyzovat implementovanou rekurentní konvoluční neuronovou síť navrženou pro detekci intronů v metagenomech hub a poskytnout vysvětlení za pomoci sekvenčních log. Hlavním cílem je najít minimální počet modelů potřebných k dosažení úplného pokrytí variability druhové rozmanitosti v říši hub s přihlédnutím k časové složitosti a výpočetní náročnosti. Zpočátku bylo vytvořeno celkem 19 párů modelů - jeden pro donor a jeden pro akceptor. Tyto dvojice byly vytvořeny na základě taxonomické klasifikace. Následně byly vytvořeny dvě metody učení modelů: jedna za pomoci augmentace dat a druhá za použití transfer learning. Po nalezení optimálních hodnot parametrů těchto metod bylo provedeno důkladné porovnání jednotlivých modelů mezi sebou. Z tohoto porovnání vyšel model natrénovaný pomocí transfer learningu jako nejlepší volba. Při porovnání modelů k určení nejmenšího počtu potřebných modelů ke klasifikaci říše hub, byl nalezena limitace použití transfer learning. Model doučený pomocí transfer learning sice lépe hodnotil doučenou část, avšak u zbytku jeho schopnost hodnotit klesla. Toto vedlo k výběru modelů naučených jinou metodou. Celkem bylo ze všech vybráno 9 modelů, které s velkou přesností klasifikují celou říši hub. Pro podpoření tohoto rozhodnutí a vysvětlení vybraných modelů byla vybrána technika zvaná Sekvenční loga. Na základě těchto log a jejich porovnání se dospělo k závěru, že modely byly vybrány vhodně. The objective of this thesis is to analyse the recurrent convolutional neural network that has been previously proposed for detecting splice sites in the fungal kingdom and to provide an explanation by employing sequence logos. The main goal is to minimise the number of models required to obtain complete coverage, taking into account time complexity and computational capacity. Initially, a total of 19 pairs of models were generated, with one model representing the donor and another model representing the acceptor. These pairings were formed based on the taxonomical classification. Subsequently, two pipelines were created: one for augmentation and another for the purpose of transfer learning. Upon establishing the optimal parameter settings, a thorough evaluation of the models was conducted, revealing the transfer model to be the superior choice. While comparing the models to determine the optimal number required, an issue with transfer learning occurred. The issue lay in the fact that the application of transfer learning resulted in an improvement in the F1 score of the particular model in question, but led to a decrease in the scores of the other models. Therefore, different kinds of models were chosen. As a result, 9 models have been selected that meet the criteria for classifying the entire fungal world. In order to justify this decision and explain the selected models, an explanatory technique known as Sequence logos was chosen. Based on these logos, it was concluded that the models were selected appropriately.
Kolekce
- Diplomové práce - 13136 [892]