Nástroj pro detekci vzorů v grafové databázi sloužící jako úložiště metadat pro zpracování data lineage
Engine for pattern detection in graph database used as metadata storage for data lineage
Type of document
diplomová prácemaster thesis
Author
Lukáš Jarrah
Supervisor
Valenta Michal
Opponent
Šebek Jiří
Field of study
Datové vědyStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Datové toky jsou tradičně zkoumány prostřednictvím zobrazení data lineage v grafickém uživatelském prostředí. Tato práce navrhuje inovativní přístup založený na automatické analýze vzorů datových toků za pomoci vyvinutého nástroje rules engine. V publikaci je předložen průzkum grafových databází se zaměřením na technologii Neo4j, která v Manta platformě slouží jako úložiště metadat. Práce nabízí detail konkrétních obchodních příležitostí pro obhájení přidané hodnoty vyvíjeného projektu. Dále je v práci navržen a implementován prototyp vyhodnocovacího nástroje. Jeho hlavní část zodpovídající za spuštění pěti vybraných pravidel je popsána detailněji se zaměřením na její výstupy, které jsou v podobě reportů následně srovnávány s manuálním zkoumáním v uživatelském prostředí Manty. Celý prototyp je na závěr vhodně otestován a ověřen s ohledem na jeho relevanci vůči různým typům zákazníků. Speciální pozornost je věnována výkonnosti konkrétních databázových dotazů napsaných v jazyce Cypher. Práce také kalkuluje s eventuálními možnostmi rozšíření a navrhuje další vylepšení, která by mohla být do tohoto nástroje v budoucnu implementována. The traditional way of data flows inspection is a visual representation of data lineage in the graphical user interface. This work proposes an innovative approach to automatically analyzing data flows patterns by the developed rules engine tool. The thesis contains research of graph databases, aiming mainly on Neo4j, which is used as underlying storage in the Manta platform. To justify the project's business value, the work also includes a detailed list of specific use-cases. On this basis, the prototype of the rules engine is designed and implemented. The core part responsible for the execution of five selected rules is described, and the result reports are demonstrated and compared with manual inspection in the Manta user interface. Subsequently, the project is appropriately tested, focusing on performance testing of particular graph queries implemented in Cypher language. Eventually, the provided value of the rules engine for various types of customers is verified. Besides, the thesis introduces suggestions for future extensions and enhancements.
Collections
- Diplomové práce - 13136 [902]