Hledání sekvenčních motivů v mRNA selektovaných vazbou na translační iniciační faktory z rodiny eIF4E
Search for sequence motifs in mRNAs selected by binding of translation initiation factors from the eIF4E family
Typ dokumentu
diplomová prácemaster thesis
Autor
Jan Holčák
Vedoucí práce
Pospíšek Martin
Oponent práce
Kléma Jiří
Studijní obor
Kybernetická bezpečnostStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Výběr vhodného nástroje hledajícího neobjevené motivy v RNA sekvencích je obtížný. Náročná instalace programů může vést k problémům s nasazením. Dostupné sady nástrojů nejsou připraveny na hromadné výpočty. Nástroje schopné integrovat výstup většího množství programů jsou zatím jen ve fázi prototypů. Uvedené problémy jsou řešeny sestavením množství Docker kontejnerů kompatibilních se Singularity. Realizován je izolovaný, paralelní běh programů bez potřeby znalosti specifických parametrů. Vyřešeno je také převedení výsledků do MEME formátu vhodného pro další zpracování. Zakomponován je vylepšený program integrující objevené motivy. Navržena je příprava dat generováním FASTA souborů uplatňujících rozdílů mezi sekvenačními daty a referenčním genomem. Zjednodušeno je nasazení programů hledajících motivy nezávisle na zvolené platformě. Implementované hromadné spouštění umožňuje výrazně rychlejší hledání a následné zpracování nalezených motivů. Zvolené řešení umožňuje také velmi rychlou změnu verze nebo modifikaci podporovaných nástrojů. Choosing the right de-novo motif search tool for RNA sequences can be tough. Difficult tool installation can lead to later deployment issues. There is no toolkit combining motif discovery tools properly implemented with bulk data processing in mind. Tools capable of integrating the output of a larger number of programs are currently only in the prototyping phase. These issues are addressed by building a number of Singularity-compatible Docker containers. An isolated, parallel running of programs is realized without the need for knowledge of specific parameters. The conversion of results into MEME format suitable for further processing is also solved. A program integrating the discovered motifs is included. Data preparation by generating FASTA files with applied differences observed between sequencing data and reference genome is proposed. The deployment of motif discovery tools, regardless of the chosen platform, is significantly simplified. Implemented bulk excution allows significantly faster search and subsequent processing of discovered motifs. The chosen solution also allows a very fast version change or modification of supported tools.
Kolekce
- Diplomové práce - 13136 [833]