Indexování XML dokumentů pomocí automatů: implementace a experimentální vyhodnocení
Automata Approach to XML Data Indexing: Implementation and Experimental Evaluation
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Renc Lukáš
Vedoucí práce
Šestáková Eliška
Oponent práce
Trávníček Jan
Studijní obor
Teoretická informatikaStudijní program
InformatikaInstituce přidělující hodnost
katedra teoretické informatikyObhájeno
2018-06-18Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zabývá implementací a experimentálním vyhodnocením metod pro indexování XML dokumentů. Konkrétně se jedná o metody Tree String Path Automaton (TSPA), Tree String Path Subsequence Automaton (TSPSA) a Tree Path Automaton (TPA). Tyto metody jsou založeny na teorii konečných automatů a umožňují nalezení odpovědi pro omezenou podmnožinu XPath dotazů (obsahující pouze ${/,//}$ přechody a jejich kombinaci) v lineárním čase délky dotazu. Jednotlivé metody jsou v této práci implementovány jako Java knihovna. K předzpracování XML dokumentu je použita knihovna SAX. Hlavní část práce se venuje popisu, implementaci a podmínkám behu experimentu. V práci jsou prezentovány provedené experimenty. Tyto experimenty zkoumají, jak závisí vlastnosti indexu na velikosti (hloubce, šírce) vstupního XML souboru. Při tvorbě indexu měříme spotřebu RAM a čas. Proto XML dokumenty použity pro experimenty tvoří set s navzájem různými klíčovými parametry (např. průměrná hloubka, maximální hloubka, velikost, počet listů). V závěru práce jsou graficky prezentovány výsledky experimentů. Ve výsledné knihovně je zabudována podpora pro spuštění výše zmíněného experimentálního prostředí. This thesis deals with implementation and an experimental evaluation of some XML data indexing methods. The methods are as follows:Tree String Path Automaton (TSPA), Tree String Path Subsequence Automaton (TSPSA) and Tree Path Automaton (TPA). All of these methods are based on the theory of finite automata and answer a limited subset of XPath query (limited to ${/,//}$ transitions and their combination) in linear time to the length of the query. They are implemented as a Java library. SAX library is used to preprocess an XML document. The main part of the thesis is dedicated to a description, an implementation and conditions under which experiments are conducted. In the thesis experiments are run to clarify relations between Size/Depth/Width of an XML document and RAM consumption/Time to build an index. The chosen XML documents, which are presented in this thesis, form a set of mutually different documents in crucial aspects (average depth, maximal depth, size, number of leaves). Results of the conducted experiments are described in the end of the thesis. There is built-in support for experimental environment in the resulting Java library.
Kolekce
- Bakalářské práce - 18101 [349]