Clustering of RNA-seq Reads by Gene Expression Levels

Shlukování RNA-seq reads podle genové exprese

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Technológie na sekvenovanie produkujú veľké množstvo bioinformatických dát. Z týchto dát je možné získať celé spektrum informácií, ako napríklad štruktúru DNA, stav buniek a veľa ďalších. V tejto práci uvedieme základné koncepty a metódy používané na spracovanie dát získaných sekvenovaním. Zameriame sa najmä na analýzu génovej expresie. Bežný prístup je založený na priraďovaní sekvencií na úseky v referenčnom reťazci. Na rozdiel od prístupov založených na referencii, naším cieľom bude rozdeliť sekvencie podľa príslušnosti k jednotlivým génom bez znalosti referenčného reťazca. Na záver porovnáme naše riešenie so štandardným algoritmom založeným na metóde využívajúcej referenciu. Kľúčové slová: zhlukovanie, ready, génová expresia, bez referencie.

Sequencing technologies produce a high amount of bioinformatic data. These data are then processed by various algorithms, gathering the information about the DNA structure, the cell condition and many others. In this thesis, we introduce the basic concepts and methods used to process the sequenced data. Specifically, we focus on the gene expression analysis. Standard approaches are based on aligning the input sequences to the reference. Unlike these reference-based pipelines, our main goal is to categorize the input sequences according to the membership to the different genes without any reference. Finally, we compare our solution to the reference-based algorithm. Keywords: clustering, reads, gene expression, reference-free.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By