Učení rozkladu komplexních tkání z expresních profilů a jeho využití při vyhledávání biomarkerů

Sekvenování RNA je běžně používaná technologie. Často slouží zejména pro měření genové exprese, a následně pro analýzu diferenciální genové exprese. RNA sekvenování se většinou provádí na vzorcích z komplexních tkání, u kterých není známo buněčné složení. RNA sekvenování tak nedokáže rozpoznat rozdíly v genové expresi na úrovni buněčných typů. Existují však metody, zaměřené na rozložení naměřených dat z komplexních tkání do jednotlivých buněčných typů --- nazývají se metody \textit{dekonvoluce (rozkladu) expresních profilů}. V této práci stručně představujeme technologii RNA sekvenování a popisujeme základní statistické vlastnosti jí produkovaných dat, zejména z pohlednu normalizace těchto dat. Dále popisujeme formalizaci problému dekonvoluce expresních profilů, představujeme rešerši dekonvolučních metod v literatuře a porovnáváme je z pohledu navrhnutých metrik. Následně jsme vybrali 10 těchto metod, a v 18 různých konfiguracích jsme je aplikovali na poskytnutá data genové exprese. Výsledky dekonvoluce porovnáváme na základě Pearsonovy a Spearmanovy korelace, což odhalilo skupiny metod, které produkovaly podobné výsledky. Prezentujeme různé způsoby použití těchto výsledků v analýze DGE vedoucí k odlišným signifikantním biomarkerům. To dává podnět k budoucímu výzkumu a ověření přínosu těchto odlišností na cíleně připravených datasetech.

RNA sequencing (RNA-seq) is a widely used technology used for measuring the gene expression and consequently, for the differential gene expression analysis. The sequencing is usually performed on bulk mixture samples and is thus not able to reveal the cell type composition of the sample. It is, however, possible to infer this composition in silico from the measurements of bulk samples --- the class of methods, performing this task, is commonly referred to as \textit{gene expression profile deconvolution} methods. We give a brief introduction to the RNA-seq technology and describe the basic statistical properties of the RNA-seq count data, mainly in the context of various normalization methods. We formalize the problem of deconvolution, perform research of deconvolution methods available in the literature, and compare them based on proposed metrics. We select 10 of these methods and apply them in 18 various setups to RNA-seq count data. The deconvolution results are then compared based on Pearson and Spearman correlations, revealing clusters of methods performing similarly. We then introduce ways of incorporating these results into differential gene expression (DGE) analysis. We show that incorporating deconvolution into the DGE pipeline produces results different from DGE with no such information. Although the benefit of such differences could not be directly evaluated, this opens the door to future research of these differences on datasets with well-defined ground truth.

Keywords

RNA sekvenování, dekonvoluce, expresní profily, diferenciální genová exprese, biomarkery, RNA sequencing, deconvolution, gene expression profiles, differential gene expression, biomarkers

Permanent link

http://hdl.handle.net/10467/87788

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Master Theses - 13136

Full item page

Robust cell subsets decomposition from tissue expression profiles for biomarker identification