CTU Data Warehouse - data import in Apache Airflow tool

Datový sklad ČVUT - import dat v nástroji Apache Airflow

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Práce se zabývá paralelizací ETL procesů datového skladu ČVUT, které nahrávají data z nejdůležitějších informačních systémů univerzity do centrální databáze datového skladu. Hlavním cílem této paralelizace je urychlení celého nahrávacího procesu. Pro vývoj výsledného řešení byla vybrána technologie Apache Airflow. Vybrána byla na základě průzkumu, který ve svých bakalářských pracích na fakultě informačních technologií ČVUT v minulosti provedli Kristina Zolochevskaia a Adam Marhefka. V rámci práce bylo úspěšně navrženo a implementováno paralelní řešení nahrávání datového skladu ČVUT, které je aktuálně nasazeno v testovacím prostředí, kde je dále optimalizováno a připravováno na produkční nasazení. Vytvořené řešení bylo podrobeno více než deseti testovacím běhům, které oproti původnímu řešení vykazují více než trojnásobné zrychlení nahrávacího procesu. Tyto výsledky otevírají možnost přechodu z týdenního nahrávání na denní nahrávání.

The thesis deals with the parallelization of ETL processes of the CTU data warehouse that load data from the university's critical information systems to the central database of the data warehouse. The main goal of the parallelization is to speed up the whole process. The Apache Airflow technology was chosen for the development of the final solution. Its choice was based on research conducted by Kristina Zolochevskaia and Adam Marhefka in their bachelor's theses at the Faculty of Information Technology CTU. A parallel solution of data input into the CTU data warehouse was successfully designed and implemented in the thesis. It is currently deployed in a testing environment, where it is being further optimized and prepared for the production deployment. The solution underwent more than ten test runs that showed more than a triple increase in the speed of the loading process in comparison with the former standard. These results open the possibility of advancing from weekly loading to daily loading.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By