Evaluation of XPath queries over XML documents using SparkSQL framework
Evaluation of XPath queries over XML documents using SparkSQL framework
Type of document
diplomová prácemaster thesis
Author
Hricov Radoslav
Supervisor
Šenk Adam
Opponent
Kroha Petr
Field of study
Webové a softwarové inženýrstvíStudy program
InformatikaInstitutions assigning rank
18102Defended
2016-06-14Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item recordAbstract
Cieľom tejto práce je implementovať podmnožinu výrazov jazyka XPath pomocou systému Spark SQL. Prvá časť práce je zameraná na predstavenie projektu Apache Spark. Druhá časť pokrýva analýzu možnosti mapovania XML dokumentov do formy tabuľky použitím kódovania prvkov, ktoré zachováva ich poradie v rámci dokumentu. V druhej časti je taktiež popísaných niekoľko spôsobov riešenia, ktoré využívajú funkcie systému Spark. Tretia časť tejto práce je zameraná na implementáciu a testovanie navrhnutého riešenia. The main goal of this thesis is to use Spark SQL framework to implement a subset of expressions from XPath query language. The first part of this thesis is focused on introducing the Apache Spark project. The second part covers analysis of mapping XML documents into the tabular form using an encoding of nodes that keeps a document order. Also the approach to the solution that uses Spark's features is described in the second part. The third part of the thesis is focused on implementation and testing of designed solution.
Collections
- Diplomové práce - 18102 [1036]
Related items
Showing items related by title, author, creator and subject.
-
Využití konceptu BIG data v oblasti Geodézie a Kartografie
Author: Martin Vajner; Supervisor: Pytel Jan; Opponent: Koska Bronislav
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2022-06-22)Cílem diplomové práce je analýza využití nástrojů pro zpracování Big data v oblasti geodézie a kartografie. Práce je zaměřena na využití analytického nástroje Apache Spark (sparc.apache.org) používaného spolu s programovacím ... -
Systém pro analýzu proudu dat v reálném čase
Author: Viktora David; Supervisor: Šenk Adam; Opponent: Smítka Jiří
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2016-05-17)Cílem této práce bylo vytvoření systému pro analýzu proudu dat v reálném čase v kontextu velkých objemů dat. Zpracovávanými daty jsou příspěvky ze sociální sítě Twitter. K samotné analýze byl použit framework Apache Spark, ... -
Strojové učení bez učitele a detekce odlehlých hodnot v rozsáhlých archívech astronomických spekter
Author: Shakurova Ksenia; Supervisor: Škoda Petr; Opponent: Jiřina Marcel
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2016-05-12)Tato práce se zabývá studiem vlastností několika populárních algoritmů shlukovací analýzy, např. DBSCAN, K-means, Biclustering a dalších pro astronomické účely. V práci se také zkoumají metody redukce dimenzionality a ...