Automata Approach to XML Data Indexing: Selecting Unknown Nodes

Indexování XML dokumentů pomocí automatů: výběr neznámých uzlů

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Tato práce je součástí projektu "Indexování XML dokumentů pomocí automatů". Popisuje existující metody pro indexování XML dokumentů, které jsou založeny na teorii automatů, a jejich rozšíření, za účelem umožnění efektivního zpracování XPath dotazů skládajících se z libovolné kombinace child (/), descendant-or-self (//) os a asterisk (*) a nodename node testů, sloužících k navigaci v XML dokumentu. Ke konstrukci indexu pro daný XML dokument D s n elementy je využít odpovídající XML stromový model T. Zpracování dotazu Q o velikosti m proběhne v čase O(m) nezávislém na n. Tato práce obsahuje též diskuzi ohledně časové a paměťové složitosti pro každou z navržených metod. Všechny nově popsané algoritmy jsou implementovány a otestovány na reálních datech.

Being a part of the "Automata Approach to XML Data Indexing" project, this thesis is concerned with studying the existing methods of indexes creation algorithms based on the automata theory and extending them to deal with more significant fragment of XPath queries. The presented methods allow us to construct XML data indexes that support evaluation of all XPath queries using any combinations of child (/), descendant-or-self (//) axes, asterisk (*) and nodename node tests. Given an XML document D and its corresponding XML tree model T with n nodes, the tree is preprocessed and the index for the document D is constructed. The searching phase time of each of the constructed indexes for a query Q is bounded by O(m), where m is size of the query Q, and does not depend on the indexed XML document size n. Moreover, the space and time complexities for each of the proposed indexes are discussed, all the introduced algorithms are implemented and tested over the real-life datasets.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By