Tool for sequence motif discovery in RNA-Seq data
Nástroj pro objevování sekvenčních motivů v RNA-Seq datech
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Hledání a analýza sekvenčních motivů jsou důležitým krokem při zkoumání funkcí genů a regulace genové exprese. Pro řešení této úlohy v současnosti existuje více než 150 heuristických i neheuristických algoritmů využívajících různorodé programovací přístupy. Výběr z neustále zvětšující se množiny programů je časově náročný, stejně jako jejich následná instalace a korektní spuštění. Tato diplomová práce se zabývá tvorbou aplikace, která má za cíl urychlit výběr a zautomatizovat instalaci oněch nástrojů a také poskytnout základní kvalitativní analýzu nalezených motivů. Pro běh aplikace je využita Java a pro většinu použitých nástrojů je využita virtualizace pomocí kontejnerů, což dohromady umožňuje širokou podporu napříč běžnými operačními systémy. Samotné jádro aplikace je naprogramováno jako jednoduchý daty řízený graf úloh (data-driven task graph), do kterého uživatel přidává kroky reprezentující určitou funkci.
Search and analysis of sequence motifs are important steps in studies of gene functions and regulation of gene expression. Currently, to address this task, there are more than 150 both heuristic and non-heuristic algorithms using a variety of programming approaches. Selecting from this ever-expanding set of applications is time-consuming, as is subsequent installation and proper execution. This thesis focuses on developing an application to quicken selection and automate the installation of such tools, and to provide basic qualitative analysis of found motifs. The application runs on Java and for most of the tools used container virtualization is employed, combined allows for broad support across common operating systems. The core of application is programmed using a simple data-driven task graph, to which the user adds steps representing a certain function.
Search and analysis of sequence motifs are important steps in studies of gene functions and regulation of gene expression. Currently, to address this task, there are more than 150 both heuristic and non-heuristic algorithms using a variety of programming approaches. Selecting from this ever-expanding set of applications is time-consuming, as is subsequent installation and proper execution. This thesis focuses on developing an application to quicken selection and automate the installation of such tools, and to provide basic qualitative analysis of found motifs. The application runs on Java and for most of the tools used container virtualization is employed, combined allows for broad support across common operating systems. The core of application is programmed using a simple data-driven task graph, to which the user adds steps representing a certain function.