Zobrazit minimální záznam

Parallelization of ETL processes DW CTU - case study



dc.contributor.advisorValenta Michal
dc.contributor.authorKristina Zolochevskaia
dc.date.accessioned2023-06-16T22:51:35Z
dc.date.available2023-06-16T22:51:35Z
dc.date.issued2023-06-16
dc.identifierKOS-1065790797605
dc.identifier.urihttp://hdl.handle.net/10467/109540
dc.description.abstractTato bakalářská práce se zabývá paralelizaci procesů Extract, Transform, Load (ETL) v rámci datového skladu Českého vysokého učeni technického (DW ČVUT) s cilem zlepšit výkon. Stávajici řešeni, které se opirá o sekvenčni přistup, je časově náročné a omezuje efektivitu systému. Hlavnim cilem této studie je navrhnout nový paralelni přistup a implementovat důkaz konceptu (POC) pomoci odlišné technologie jako alternativu k současnému nástroji Pen-taho Data Integration (PDI). Byl proveden důkladný přehled literatury, aby byly identifikovány po-tenciálni řešeni, přičemž Apache Airflow se ukázal jako moderni a spoleh-livá možnost. Implementace se skládá ze dvou hlavnich komponent: ručně kódovaných ETL procesů v Pythonu a Apache Airflow, který orchestruje, monitoruje, organizuje a plánuje paralelni prováděni úkolů ETL. Nové řešeni úspěšně snižilo čas načitáni na polovinu, což dokazuje jeho účinnost při zlepšo-váni výkonu DW ČVUT. Hlavnim přinosem této práce je vývoj efektivnějšiho paralelniho ETL řešeni, které snižuje zatiženi serverů Výpočetniho a informačniho centra (VIC) a uvolňuje prostředky pro ostatni procesy.cze
dc.description.abstractThis bachelor's thesis addresses the parallelization of Extract, Transform, Load (ETL) processes within the Data Warehouse of Czech Technical University (DW CTU) to improve performance. The existing solution, which relies on a sequential approach, is time-consuming and limits the system's efficiency. The primary objective of this study is to propose a new parallelization approach and implement a proof of concept (POC) using different technology as an alternative to the current Pentaho Data Integration (PDI) tool. A thorough literature review was conducted to identify potential solutions, with Apache Airflow emerging as a modern and reliable option. The implementation consists of two main components: hand-coded ETL processes in Python and Apache Airflow, which orchestrates, monitors, organizes, and schedules the parallel execution of the ETL tasks. The new solution successfully decreased the loading time by half, demonstrating its effectiveness in enhancing the DW CTU's performance. The main contribution of this thesis is the development of a more efficient parallel ETL solution, which reduces the workload on the Computing and Information Centre (VIC) servers and frees up resources for other processes.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectparalelni ETLcze
dc.subjectdatový sklad ČVUTcze
dc.subjectApache Airflowcze
dc.subjectPythoncze
dc.subjectpandascze
dc.subjectparallel ETLeng
dc.subjectdata warehouse CTUeng
dc.subjectApache Airfloweng
dc.subjectPythoneng
dc.subjectpandaseng
dc.titleParalelizace ETL procesů DW ČVUT - případová studiecze
dc.titleParallelization of ETL processes DW CTU - case studyeng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeKarol Pavel
theses.degree.disciplineWebové a softwarové inženýrstvícze
theses.degree.grantorkatedra softwarového inženýrstvícze
theses.degree.programmeInformatika 2009cze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam