Efektivní odhad podobnosti genomů pro učení ze sekvenčních dat

Petr Ryšavý

Efficient genome similarity estimation for learning from sequencing data

dc.contributor.advisor	Železný Filip
dc.contributor.author	Petr Ryšavý
dc.date.accessioned	2023-05-05T09:19:10Z
dc.date.available	2023-05-05T09:19:10Z
dc.date.issued	2023-03-25
dc.identifier	KOS-721216301805
dc.identifier.uri	http://hdl.handle.net/10467/108077
dc.description.abstract	Vkládání sekvencí je jeden z nejběžnějších úkonů v bioinformatice. Cílem je získat odhady DNA sekvence organismu v situaci, kdy známe pouze krátké podřetězce této sekvence. Obor skládání sekvencí je vyspělý, takže je možné získat rozumné odhady brzy. Nicméně problém jako takový je NP-těžký a některé jeho instance nelze řešit efektivně, některé jsou dokonce neřešitelné. Tato práce prezentuje několik metod pro zachycení podobností v sekvenačních datech. Budeme se snažit vyhnout problémům se skládání sekvencí v kontextu fylogenetiky a zarovnávání sekvencí. Nejprve vynecháme skládání sekvencí zcela. V druhém kroku budeme skládat pouze jednoduché části sekvencí a nakonec tyto dvě motody spojíme do jedné. Poskytneme teoretické náhledy do řešených problémů, včetně dolní meze, p-hodnoty a experimentální evaluace. Podobnost sekvencí může být použita jako vstup v mnoha algoritmech strojového učení. V této práci se zaměříme na nesupervizované učení, jmenovitě na hierarchické shlukování, které umožňuje odhadnout evoluční stromy. V konci práce aplikujeme podobné myšlenky na problém anotace cirkulárních RNA termy, jako jsou například termy genových ontologií. Dále budeme diskutovat možnosti zapojení RNA-Seq dat do problému anotace, což nám pak umožní vytvořit další metodu pro učení na různých sekvenačních datech.	cze
dc.description.abstract	Sequence assembly is one of the most common tasks in bioinformatics. Its goal is to produce estimates of the DNA sequence of an organism only by knowing short substrings of this sequence. The sequence assembly field is mature; therefore, it is possible to get reasonable estimates quickly. However, the problem itself is known to be NP-hard, and some instances are not efficiently solvable; some are unsolvable at all. This work presents several methods for capturing similarities in sequencing data. We will avoid the difficulties of sequence assembly in the problems of phylogeny and sequence alignment. Firstly, we avoid the assembly step completely. Secondly, we assemble only the easy parts. Finally, we merge those two approaches into a single measure. We will provide many theoretical insights into the proposed measure, including a lower-bound view and the p-value, as well as experimental evaluation. Sequence similarity can be used as an input in many machine-learning algorithms. In this thesis, we focus on unsupervised learning and namely on hierarchical clustering, which allows us to estimate evolutionary trees. Next, we apply similar ideas to the problem of annotation of circular RNA with annotation terms, such as, for example, gene ontology terms. Further, we discuss the possibility of incorporating the RNA-Seq data into the annotation problem and, thus, provide further methods for learning on different sequencing data.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	genomické sekvence	cze
dc.subject	multimnožina čtení	cze
dc.subject	skládání sekvencí	cze
dc.subject	podobnost sekvencí	cze
dc.subject	cirkulární RNA	cze
dc.subject	annotatace	cze
dc.subject	Monge-Elkanova vzdálenost	cze
dc.subject	Levenshteinova vzdálenost	cze
dc.subject	genomic sequences	eng
dc.subject	read bags	eng
dc.subject	sequence assembly	eng
dc.subject	sequence similarity	eng
dc.subject	circular RNA	eng
dc.subject	annotation	eng
dc.subject	Monge-Elkan distance	eng
dc.subject	Levenshtein distance	eng
dc.title	Efektivní odhad podobnosti genomů pro učení ze sekvenčních dat	cze
dc.title	Efficient genome similarity estimation for learning from sequencing data	eng
dc.type	disertační práce	cze
dc.type	doctoral thesis	eng
dc.contributor.referee	Song Joe
theses.degree.discipline	Umělá inteligence a biokybernetika	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Elektrotechnika a informatika	cze

Soubory tohoto záznamu

Název:: F3-D-2023-Rysavy-Petr-disserta ...
Velikost:: 5.505Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Disertační práce - 13000 [748]

Zobrazit minimální záznam