ETL server pro potřeby datového skladu fakulty
ETL server for the faculty data warehouse
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Lenger Radim
Vedoucí práce
Kuznetsov Stanislav
Oponent práce
Valenta Michal
Studijní obor
Softwarové inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra softwarového inženýrstvíObhájeno
2015-06-17Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Práce se zabývá návrhem a implementací ETL serveru pro potřeby školního datového skladu. V současnosti jsou ETL transformace a úlohy spouštěny ručně správcem a není zaveden konkrétní proces kontroly celého průběhu spouštění ETL transformací. Navržený server tedy zajišťuje pravidelný běh ETL transformací, sleduje jejich činnost a zaznamenává informace o jejich běhu. Zároveň jsem navrhl procesní workflow celé procedury. Server také posloužil pro otestování nasazení historizace a metadat v rámci ETL procesů. Pro pilotní nasazení jsem vybral linuxový server a open source ETL nástroj Pentaho Kettle.
V první teoretické části jsem seznámil čtenáře se základními pojmy a provedl rešerši dostupných řešení ETL procesů. Poté jsem v rámci klíčových ukazatelů výkonnosti sepsal jak měřit a testovat ETL úlohy a jejich běh na serveru.
Ve druhé praktické části jsem provedl analýzu současného řešení, navrhl a následně implementoval pracovní workflow ETL serveru. Využil jsem k tomu daemona navrženého v C++ a shell skriptů. Pilotní nasazení jsem poté vyzkoušel a otestoval dle teoretické části a přidal další testy samotného daemona a skriptů.
Při ostrém nasazení bude jistě třeba ještě doladit definici skriptů, jedná se však spíše o drobné úpravy, které nelze vytvořit jinak než s použitím ostrých dat. The bachelor thesis deals with the design and implementation of ETL server for the school data warehouse purposes. Nowadays the ETL transformations are being started manually by admin where there is no specific process control. Designed server provides regular running of ETL transformation, monitors their activity and records information of running ETL scripts. I also designed process workflow of the entire procedure. Server also serves as testing machine for pilot deployment of historization and metadata within the ETL processes. I've chosen linux server and the open source tool Pentaho Kettle.
In the first theoretical part the reader is informed about basic therms. I've also made a search report of available solutions for ETL processes. Concurrently I wrote down the measurement and testing of ETL jobs and their running on the server within the key proccess indicators section. In the second practical part I've done analysis of current solution. Thereafter I've designed and implemented ETL server workflow. I've prepared daemon written in C++ and I also wrote a few shell scripts. In conclusion I've tested the server regarding to the theoretical part and I've added some tests of my daemon and scripts.
Within the real deployment admin will need to change and harmonize shell scripts regarding to the real data sets.
Kolekce
- Bakalářské práce - 18102 [1608]