Zobrazit minimální záznam

CTU Data Warehouse - data import in Apache Airflow tool



dc.contributor.advisorValenta Michal
dc.contributor.authorJiří Lejsek
dc.date.accessioned2024-06-21T22:52:22Z
dc.date.available2024-06-21T22:52:22Z
dc.date.issued2024-06-21
dc.identifierKOS-1240814678805
dc.identifier.urihttp://hdl.handle.net/10467/116069
dc.description.abstractPráce se zabývá paralelizací ETL procesů datového skladu ČVUT, které nahrávají data z nejdůležitějších informačních systémů univerzity do centrální databáze datového skladu. Hlavním cílem této paralelizace je urychlení celého nahrávacího procesu. Pro vývoj výsledného řešení byla vybrána technologie Apache Airflow. Vybrána byla na základě průzkumu, který ve svých bakalářských pracích na fakultě informačních technologií ČVUT v minulosti provedli Kristina Zolochevskaia a Adam Marhefka. V rámci práce bylo úspěšně navrženo a implementováno paralelní řešení nahrávání datového skladu ČVUT, které je aktuálně nasazeno v testovacím prostředí, kde je dále optimalizováno a připravováno na produkční nasazení. Vytvořené řešení bylo podrobeno více než deseti testovacím běhům, které oproti původnímu řešení vykazují více než trojnásobné zrychlení nahrávacího procesu. Tyto výsledky otevírají možnost přechodu z týdenního nahrávání na denní nahrávání.cze
dc.description.abstractThe thesis deals with the parallelization of ETL processes of the CTU data warehouse that load data from the university's critical information systems to the central database of the data warehouse. The main goal of the parallelization is to speed up the whole process. The Apache Airflow technology was chosen for the development of the final solution. Its choice was based on research conducted by Kristina Zolochevskaia and Adam Marhefka in their bachelor's theses at the Faculty of Information Technology CTU. A parallel solution of data input into the CTU data warehouse was successfully designed and implemented in the thesis. It is currently deployed in a testing environment, where it is being further optimized and prepared for the production deployment. The solution underwent more than ten test runs that showed more than a triple increase in the speed of the loading process in comparison with the former standard. These results open the possibility of advancing from weekly loading to daily loading.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectparalelizace ETLcze
dc.subjectdatový sklad ČVUTcze
dc.subjectApache Airflowcze
dc.subjectDAGcze
dc.subjectPL/pgSQLcze
dc.subjectETL parallelizationeng
dc.subjectdata warehouse CTUeng
dc.subjectApache Airfloweng
dc.subjectDAGeng
dc.subjectPL/pgSQLeng
dc.titleDatový sklad ČVUT - import dat v nástroji Apache Airflowcze
dc.titleCTU Data Warehouse - data import in Apache Airflow tooleng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeKarol Pavel
theses.degree.disciplineSoftwarové inženýrství 2021cze
theses.degree.grantorkatedra softwarového inženýrstvícze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam