Rozšíření populačního genotypového fázování o fragmentové fázování
Extension of genotype population-based phasing with
Typ dokumentu
diplomová prácemaster thesis
Autor
Lebedeva Anastasia
Vedoucí práce
Gavenčiak Tomáš
Oponent práce
Kléma Jiří
Studijní obor
BioinformatikaStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Haplotypem rozumíme skupinu alel, které jsou přenášeny společně. Přestože většina genet-ického výzkumu vyžaduje znalost haplotypů, v současnosti dostupné technologie sekvenování DNA tuto informaci explicitně neposkytují. Z tohoto důvodu probíha aktivně vývoj výpočet-ních metod pro odhad haplotypů (neboli fázování). Některé z aktuálně používaných platforem pro sekvenování produkují fragmenty pokrý-vající dlouhé úseky původní DNA. Kdykoli fragment pokrývá více než jednu heterozygotní variantu, lze tuto informaci efektivně využít během fázování. Fázování pracující pouze s fragmenty DNA nicméně nedosahuje požadované přesnosti kvůli vysoké chybovosti těchto platforem. Na druhou stranu, metody populačního genotypového fázování, které dosahují vysoké přesnosti, jsou často výpočetně příliš náročné. V nedávné době Eagle2 (algoritmus populačního genotypoveho fázování) v rychlosti výrazně překonal dosud dostupné fázovací algoritmy bez ztráty přesnosti. V této práci představujeme nový algoritmus fázování, který kombinuje vlastnosti Eagle2 se schopnostmi fragmentového fázování. Tímto je umožněno zvýšení přesnosti bez nárůstu časové složitosti a zároveň do-voluje operovat na menším referenčním panelu. The term haplotype refers to a group of alleles in an organism that is inherited together from a single parent. Although the majority of genetic studies requires knowledge of haplotypes, available DNA sequencing technologies do not produce the information explicitly. For that reason, various computational methods for haplotype estimation (also known as phasing) have been actively developed. Some of the currently available sequencing platforms produce fragments spanning long regions of original DNA. As soon as a fragment spans more that one heterozygous variant, this information can be efficiently utilized during phasing. However, phasing based only on reads does not achieve sufficient accuracy due to the high sequencing error rate longer reads suffer from. At the same time, population-based phasing methods which are highly accurate and constitute current state-of-the-art are often computationally too expensive. Recently, Eagle2 population-based phasing algorithm significantly outperformed available phasing software in terms of run time requirements without loss in accuracy. In this work we present a new phasing algorithm which adopts main features of the Eagle2 algorithm and extends the method by read-based phasing. This allows to increase phasing accuracy without increasing time complexity. It also allows to perform phasing on a smaller reference panel.
Kolekce
- Diplomové práce - 13136 [892]