Paralelizace ETL procesů DW ČVUT - případová studie
Parallelization of ETL processes DW CTU - case study
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Kristina Zolochevskaia
Vedoucí práce
Valenta Michal
Oponent práce
Karol Pavel
Studijní obor
Webové a softwarové inženýrstvíStudijní program
Informatika 2009Instituce přidělující hodnost
katedra softwarového inženýrstvíPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato bakalářská práce se zabývá paralelizaci procesů Extract, Transform, Load (ETL) v rámci datového skladu Českého vysokého učeni technického (DW ČVUT) s cilem zlepšit výkon. Stávajici řešeni, které se opirá o sekvenčni přistup, je časově náročné a omezuje efektivitu systému. Hlavnim cilem této studie je navrhnout nový paralelni přistup a implementovat důkaz konceptu (POC) pomoci odlišné technologie jako alternativu k současnému nástroji Pen-taho Data Integration (PDI). Byl proveden důkladný přehled literatury, aby byly identifikovány po-tenciálni řešeni, přičemž Apache Airflow se ukázal jako moderni a spoleh-livá možnost. Implementace se skládá ze dvou hlavnich komponent: ručně kódovaných ETL procesů v Pythonu a Apache Airflow, který orchestruje, monitoruje, organizuje a plánuje paralelni prováděni úkolů ETL. Nové řešeni úspěšně snižilo čas načitáni na polovinu, což dokazuje jeho účinnost při zlepšo-váni výkonu DW ČVUT. Hlavnim přinosem této práce je vývoj efektivnějšiho paralelniho ETL řešeni, které snižuje zatiženi serverů Výpočetniho a informačniho centra (VIC) a uvolňuje prostředky pro ostatni procesy. This bachelor's thesis addresses the parallelization of Extract, Transform, Load (ETL) processes within the Data Warehouse of Czech Technical University (DW CTU) to improve performance. The existing solution, which relies on a sequential approach, is time-consuming and limits the system's efficiency. The primary objective of this study is to propose a new parallelization approach and implement a proof of concept (POC) using different technology as an alternative to the current Pentaho Data Integration (PDI) tool. A thorough literature review was conducted to identify potential solutions, with Apache Airflow emerging as a modern and reliable option. The implementation consists of two main components: hand-coded ETL processes in Python and Apache Airflow, which orchestrates, monitors, organizes, and schedules the parallel execution of the ETL tasks. The new solution successfully decreased the loading time by half, demonstrating its effectiveness in enhancing the DW CTU's performance. The main contribution of this thesis is the development of a more efficient parallel ETL solution, which reduces the workload on the Computing and Information Centre (VIC) servers and frees up resources for other processes.
Kolekce
- Bakalářské práce - 18102 [1724]