Datový sklad ČVUT - import dat v nástroji Apache Airflow
CTU Data Warehouse - data import in Apache Airflow tool
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Jiří Lejsek
Vedoucí práce
Valenta Michal
Oponent práce
Karol Pavel
Studijní obor
Softwarové inženýrství 2021Studijní program
InformatikaInstituce přidělující hodnost
katedra softwarového inženýrstvíPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Práce se zabývá paralelizací ETL procesů datového skladu ČVUT, které nahrávají data z nejdůležitějších informačních systémů univerzity do centrální databáze datového skladu. Hlavním cílem této paralelizace je urychlení celého nahrávacího procesu. Pro vývoj výsledného řešení byla vybrána technologie Apache Airflow. Vybrána byla na základě průzkumu, který ve svých bakalářských pracích na fakultě informačních technologií ČVUT v minulosti provedli Kristina Zolochevskaia a Adam Marhefka. V rámci práce bylo úspěšně navrženo a implementováno paralelní řešení nahrávání datového skladu ČVUT, které je aktuálně nasazeno v testovacím prostředí, kde je dále optimalizováno a připravováno na produkční nasazení. Vytvořené řešení bylo podrobeno více než deseti testovacím běhům, které oproti původnímu řešení vykazují více než trojnásobné zrychlení nahrávacího procesu. Tyto výsledky otevírají možnost přechodu z týdenního nahrávání na denní nahrávání. The thesis deals with the parallelization of ETL processes of the CTU data warehouse that load data from the university's critical information systems to the central database of the data warehouse. The main goal of the parallelization is to speed up the whole process. The Apache Airflow technology was chosen for the development of the final solution. Its choice was based on research conducted by Kristina Zolochevskaia and Adam Marhefka in their bachelor's theses at the Faculty of Information Technology CTU. A parallel solution of data input into the CTU data warehouse was successfully designed and implemented in the thesis. It is currently deployed in a testing environment, where it is being further optimized and prepared for the production deployment. The solution underwent more than ten test runs that showed more than a triple increase in the speed of the loading process in comparison with the former standard. These results open the possibility of advancing from weekly loading to daily loading.
Zobrazit/ otevřít
Kolekce
- Bakalářské práce - 18102 [1724]