Efektivní odhad podobnosti genomů pro učení ze sekvenčních dat
Efficient genome similarity estimation for learning from sequencing data
Typ dokumentu
disertační prácedoctoral thesis
Autor
Petr Ryšavý
Vedoucí práce
Železný Filip
Oponent práce
Song Joe
Studijní obor
Umělá inteligence a biokybernetikaStudijní program
Elektrotechnika a informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Vkládání sekvencí je jeden z nejběžnějších úkonů v bioinformatice. Cílem je získat odhady DNA sekvence organismu v situaci, kdy známe pouze krátké podřetězce této sekvence. Obor skládání sekvencí je vyspělý, takže je možné získat rozumné odhady brzy. Nicméně problém jako takový je NP-těžký a některé jeho instance nelze řešit efektivně, některé jsou dokonce neřešitelné. Tato práce prezentuje několik metod pro zachycení podobností v sekvenačních datech. Budeme se snažit vyhnout problémům se skládání sekvencí v kontextu fylogenetiky a zarovnávání sekvencí. Nejprve vynecháme skládání sekvencí zcela. V druhém kroku budeme skládat pouze jednoduché části sekvencí a nakonec tyto dvě motody spojíme do jedné. Poskytneme teoretické náhledy do řešených problémů, včetně dolní meze, p-hodnoty a experimentální evaluace. Podobnost sekvencí může být použita jako vstup v mnoha algoritmech strojového učení. V této práci se zaměříme na nesupervizované učení, jmenovitě na hierarchické shlukování, které umožňuje odhadnout evoluční stromy. V konci práce aplikujeme podobné myšlenky na problém anotace cirkulárních RNA termy, jako jsou například termy genových ontologií. Dále budeme diskutovat možnosti zapojení RNA-Seq dat do problému anotace, což nám pak umožní vytvořit další metodu pro učení na různých sekvenačních datech. Sequence assembly is one of the most common tasks in bioinformatics. Its goal is to produce estimates of the DNA sequence of an organism only by knowing short substrings of this sequence. The sequence assembly field is mature; therefore, it is possible to get reasonable estimates quickly. However, the problem itself is known to be NP-hard, and some instances are not efficiently solvable; some are unsolvable at all. This work presents several methods for capturing similarities in sequencing data. We will avoid the difficulties of sequence assembly in the problems of phylogeny and sequence alignment. Firstly, we avoid the assembly step completely. Secondly, we assemble only the easy parts. Finally, we merge those two approaches into a single measure. We will provide many theoretical insights into the proposed measure, including a lower-bound view and the p-value, as well as experimental evaluation. Sequence similarity can be used as an input in many machine-learning algorithms. In this thesis, we focus on unsupervised learning and namely on hierarchical clustering, which allows us to estimate evolutionary trees. Next, we apply similar ideas to the problem of annotation of circular RNA with annotation terms, such as, for example, gene ontology terms. Further, we discuss the possibility of incorporating the RNA-Seq data into the annotation problem and, thus, provide further methods for learning on different sequencing data.
Zobrazit/ otevřít
Kolekce
- Disertační práce - 13000 [743]