Zobrazit minimální záznam

Efficient genome similarity estimation for learning from sequencing data



dc.contributor.advisorŽelezný Filip
dc.contributor.authorPetr Ryšavý
dc.date.accessioned2023-05-05T09:19:10Z
dc.date.available2023-05-05T09:19:10Z
dc.date.issued2023-03-25
dc.identifierKOS-721216301805
dc.identifier.urihttp://hdl.handle.net/10467/108077
dc.description.abstractVkládání sekvencí je jeden z nejběžnějších úkonů v bioinformatice. Cílem je získat odhady DNA sekvence organismu v situaci, kdy známe pouze krátké podřetězce této sekvence. Obor skládání sekvencí je vyspělý, takže je možné získat rozumné odhady brzy. Nicméně problém jako takový je NP-těžký a některé jeho instance nelze řešit efektivně, některé jsou dokonce neřešitelné. Tato práce prezentuje několik metod pro zachycení podobností v sekvenačních datech. Budeme se snažit vyhnout problémům se skládání sekvencí v kontextu fylogenetiky a zarovnávání sekvencí. Nejprve vynecháme skládání sekvencí zcela. V druhém kroku budeme skládat pouze jednoduché části sekvencí a nakonec tyto dvě motody spojíme do jedné. Poskytneme teoretické náhledy do řešených problémů, včetně dolní meze, p-hodnoty a experimentální evaluace. Podobnost sekvencí může být použita jako vstup v mnoha algoritmech strojového učení. V této práci se zaměříme na nesupervizované učení, jmenovitě na hierarchické shlukování, které umožňuje odhadnout evoluční stromy. V konci práce aplikujeme podobné myšlenky na problém anotace cirkulárních RNA termy, jako jsou například termy genových ontologií. Dále budeme diskutovat možnosti zapojení RNA-Seq dat do problému anotace, což nám pak umožní vytvořit další metodu pro učení na různých sekvenačních datech.cze
dc.description.abstractSequence assembly is one of the most common tasks in bioinformatics. Its goal is to produce estimates of the DNA sequence of an organism only by knowing short substrings of this sequence. The sequence assembly field is mature; therefore, it is possible to get reasonable estimates quickly. However, the problem itself is known to be NP-hard, and some instances are not efficiently solvable; some are unsolvable at all. This work presents several methods for capturing similarities in sequencing data. We will avoid the difficulties of sequence assembly in the problems of phylogeny and sequence alignment. Firstly, we avoid the assembly step completely. Secondly, we assemble only the easy parts. Finally, we merge those two approaches into a single measure. We will provide many theoretical insights into the proposed measure, including a lower-bound view and the p-value, as well as experimental evaluation. Sequence similarity can be used as an input in many machine-learning algorithms. In this thesis, we focus on unsupervised learning and namely on hierarchical clustering, which allows us to estimate evolutionary trees. Next, we apply similar ideas to the problem of annotation of circular RNA with annotation terms, such as, for example, gene ontology terms. Further, we discuss the possibility of incorporating the RNA-Seq data into the annotation problem and, thus, provide further methods for learning on different sequencing data.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectgenomické sekvencecze
dc.subjectmultimnožina čtenícze
dc.subjectskládání sekvencícze
dc.subjectpodobnost sekvencícze
dc.subjectcirkulární RNAcze
dc.subjectannotatacecze
dc.subjectMonge-Elkanova vzdálenostcze
dc.subjectLevenshteinova vzdálenostcze
dc.subjectgenomic sequenceseng
dc.subjectread bagseng
dc.subjectsequence assemblyeng
dc.subjectsequence similarityeng
dc.subjectcircular RNAeng
dc.subjectannotationeng
dc.subjectMonge-Elkan distanceeng
dc.subjectLevenshtein distanceeng
dc.titleEfektivní odhad podobnosti genomů pro učení ze sekvenčních datcze
dc.titleEfficient genome similarity estimation for learning from sequencing dataeng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereeSong Joe
theses.degree.disciplineUmělá inteligence a biokybernetikacze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeElektrotechnika a informatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam