Zobrazit minimální záznam

Parallelization of DW CTU ETL processes in the Pentaho tool



dc.contributor.advisorValenta Michal
dc.contributor.authorAdam Marhefka
dc.date.accessioned2023-06-16T22:52:14Z
dc.date.available2023-06-16T22:52:14Z
dc.date.issued2023-06-16
dc.identifierKOS-1180078562305
dc.identifier.urihttp://hdl.handle.net/10467/109565
dc.description.abstractTáto bakalárska práca sa zaoberá paralelizáciou ETL procesov Dátového skladu ČVUT. Cieľom je analyzovať možnosti aktuálne používaného nástroja Pentaho Data Integration z pohľadu splnenia požiadaviek a v prípade potreby rozšíriť prostriedky nástroja pomocou vlastnej aplikácie. Požiadavky sú definované spolu so súbežnou bakalárskou prácou, ktorá skúma riešenie pomocou iných nástrojov. V praktickej časti sa na základe analýzy využívajú vhodné funkcionality aktuálneho nástroja na dátovú paralelizáciu a taktiež správu logovania. Pre implementáciu úlohovej paralelizácie a ostatných požiadaviek je vytvorená aplikácia v jazyku Java s využitím Kettle Java API. Aplikácia ukladá komponenty potrebné k nahrávaniu vo forme orientovaného acyklického grafu, čím zaručuje správne poradie vykonávania ETL procesov. Na uloženie potrebných závislostí a informácií o komponentách či na správu metadát o nahrávaniach sú použité databázové tabuľky. Na interakciu s aplikáciou je poskytnuté API rozhranie. V závere práce je zhodnotený prínos realizovaného riešenia z pohľadu budúceho využitia pre správu ETL procesov Dátového skladu ČVUT.cze
dc.description.abstractThis bachelor thesis deals with the parallelization of ETL processes of the CTU Data Warehouse. the aim is to analyze the capabilities of the currently used Pentaho Data Integration tool from the point of view of meeting the requirements and, if necessary, to extend the tool's resources by means of a custom application. the requirements are defined together with a parallel bachelor thesis that explores the solution using other tools. In the practical part, based on the analysis, appropriate functionalities of the current tool for data parallelization and also log management are used. For the implementation of task parallelization and other requirements, a Java application is developed using the Kettle Java API. the application stores the components required to load the data warehouse in the form of a directed acyclic graph, thus guaranteeing the correct order of execution of ETL processes. To store the necessary dependencies and component information or to manage metadata about ETL loads, database tables are used. An API interface is provided to interact with the application. In the conclusion of the thesis, the contribution of the implemented solution is evaluated in terms of its future use for the management of ETL processes of the CTU Data Warehouse.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectaplikáciacze
dc.subjectdátový skladcze
dc.subjectETLcze
dc.subjectJavacze
dc.subjectKettle APIcze
dc.subjectparalelizáciacze
dc.subjectPentaho Data Integrationcze
dc.subjectPOCcze
dc.subjectSpringcze
dc.subjectapplicationeng
dc.subjectdata warehouseeng
dc.subjectETLeng
dc.subjectJavaeng
dc.subjectKettle APIeng
dc.subjectparallelizationeng
dc.subjectPentaho Data Integrationeng
dc.subjectPOCeng
dc.subjectSpringeng
dc.titleParalelizácia ETL procesov DW ČVUT s využitím nástroja Pentahocze
dc.titleParallelization of DW CTU ETL processes in the Pentaho tooleng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeKarol Pavel
theses.degree.disciplineWebové a softwarové inženýrstvícze
theses.degree.grantorkatedra softwarového inženýrstvícze
theses.degree.programmeInformatika 2009cze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam