Vyhledávání výskytů stromových vzorků v seřazených stromech s pomocí indexů stromů

Milík Jan

Searching occurrences of tree patterns in ordered trees with the use of indexes of the trees

Typ dokumentu

diplomová práce
master thesis

Autor

Milík Jan

Vedoucí práce

Janoušek Jan

Oponent práce

Trávníček Jan

Studijní obor

Systémové programování

Studijní program

Informatika

Instituce přidělující hodnost

18101

Obhájeno

2016-06-15

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce porovnává dvě existující schémata pro indexování stromů. Jedno je založené na nedeterministickém faktorovém automatu, druhé na deterministickém kompaktním sufixovém automatu. Je zde popsáno třetí, nové schéma založené na pozičních haldách - relativně nové datové struktuře. Jako vedlejší produkt je popsán algoritmus pro převod sufixových stromů na poziční haldy a načrtnuta nová datová struktura založená na pozičních haldách. Všechna schémata byla implementována a jejich rychlosti změřeny. Pro většinu vstupů bylo třetí schéma založené na pozičních haldách shledáno nejrychlejším s minimální cenou v podobě malého počtu falešných pozitiv.

We compare two existing schemes for indexing trees, one based on a nondeterministic factor automaton, the other on deterministic compact suffix automaton. A third scheme is presented using position heaps - a relatively new data structures. As a side product, algorithm for converting suffix trees to position heaps and a new data structure based on the position heap is briefly sketched out. The three schemes are implemented and their running times measured. For most inputs, the third, position heap based scheme is found to be the fastest with minimal trade-off in the form of a small number of false positives.