Robust cell subsets decomposition from tissue expression profiles for biomarker identification

Učení rozkladu komplexních tkání z expresních profilů a jeho využití při vyhledávání biomarkerů

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Sekvenování RNA je běžně používaná technologie. Často slouží zejména pro měření genové exprese, a následně pro analýzu diferenciální genové exprese. RNA sekvenování se většinou provádí na vzorcích z komplexních tkání, u kterých není známo buněčné složení. RNA sekvenování tak nedokáže rozpoznat rozdíly v genové expresi na úrovni buněčných typů. Existují však metody, zaměřené na rozložení naměřených dat z komplexních tkání do jednotlivých buněčných typů --- nazývají se metody \textit{dekonvoluce (rozkladu) expresních profilů}. V této práci stručně představujeme technologii RNA sekvenování a popisujeme základní statistické vlastnosti jí produkovaných dat, zejména z pohlednu normalizace těchto dat. Dále popisujeme formalizaci problému dekonvoluce expresních profilů, představujeme rešerši dekonvolučních metod v literatuře a porovnáváme je z pohledu navrhnutých metrik. Následně jsme vybrali 10 těchto metod, a v 18 různých konfiguracích jsme je aplikovali na poskytnutá data genové exprese. Výsledky dekonvoluce porovnáváme na základě Pearsonovy a Spearmanovy korelace, což odhalilo skupiny metod, které produkovaly podobné výsledky. Prezentujeme různé způsoby použití těchto výsledků v analýze DGE vedoucí k odlišným signifikantním biomarkerům. To dává podnět k budoucímu výzkumu a ověření přínosu těchto odlišností na cíleně připravených datasetech.

RNA sequencing (RNA-seq) is a widely used technology used for measuring the gene expression and consequently, for the differential gene expression analysis. The sequencing is usually performed on bulk mixture samples and is thus not able to reveal the cell type composition of the sample. It is, however, possible to infer this composition in silico from the measurements of bulk samples --- the class of methods, performing this task, is commonly referred to as \textit{gene expression profile deconvolution} methods. We give a brief introduction to the RNA-seq technology and describe the basic statistical properties of the RNA-seq count data, mainly in the context of various normalization methods. We formalize the problem of deconvolution, perform research of deconvolution methods available in the literature, and compare them based on proposed metrics. We select 10 of these methods and apply them in 18 various setups to RNA-seq count data. The deconvolution results are then compared based on Pearson and Spearman correlations, revealing clusters of methods performing similarly. We then introduce ways of incorporating these results into differential gene expression (DGE) analysis. We show that incorporating deconvolution into the DGE pipeline produces results different from DGE with no such information. Although the benefit of such differences could not be directly evaluated, this opens the door to future research of these differences on datasets with well-defined ground truth.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By