Vyhledávání výskytů stromových vzorků v seřazených stromech s pomocí indexů stromů
Searching occurrences of tree patterns in ordered trees with the use of indexes of the trees
Typ dokumentu
diplomová prácemaster thesis
Autor
Milík Jan
Vedoucí práce
Janoušek Jan
Oponent práce
Trávníček Jan
Studijní obor
Systémové programováníStudijní program
InformatikaInstituce přidělující hodnost
18101Obhájeno
2016-06-15Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Tato práce porovnává dvě existující schémata pro indexování stromů. Jedno je založené na nedeterministickém faktorovém automatu, druhé na deterministickém kompaktním sufixovém automatu. Je zde popsáno třetí, nové schéma založené na pozičních haldách - relativně nové datové struktuře. Jako vedlejší produkt je popsán algoritmus pro převod sufixových stromů na poziční haldy a načrtnuta nová datová struktura založená na pozičních haldách. Všechna schémata byla implementována a jejich rychlosti změřeny. Pro většinu vstupů bylo třetí schéma založené na pozičních haldách shledáno nejrychlejším s minimální cenou v podobě malého počtu falešných pozitiv. We compare two existing schemes for indexing trees, one based on a nondeterministic factor automaton, the other on deterministic compact suffix automaton. A third scheme is presented using position heaps - a relatively new data structures. As a side product, algorithm for converting suffix trees to position heaps and a new data structure based on the position heap is briefly sketched out. The three schemes are implemented and their running times measured. For most inputs, the third, position heap based scheme is found to be the fastest with minimal trade-off in the form of a small number of false positives.
Kolekce
- Diplomové práce - 18101 [216]