Big Data ETL pro bankovní data
Big Data ETL for banking data
Type of document
diplomová prácemaster thesis
Author
Slavíček Ondřej
Supervisor
Bém Martin
Opponent
Svoboda Martin
Field of study
Softwarové inženýrstvíStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
V posledních letech narostlo množství nově vznikajících dat. Vznikající data jsou v zásadě nestrukturovaná, mají velký objem a jsou vytvářena velmi rychle. Na základě toho vznikl nový koncept Big Data, který nabízí možnosti zpracování těchto dat. Cílem této práce je popsat koncept Big Data a způsob zpracování Big Data datovou pumpou ETL. V práci jsou porovnány dostupná řešení ETL zpracování. Porovnáváno je nativní zpracování Big Data pomocí MapReduce, specializovaný nástroj na zpracování Big Data formou ETL od Talendu a standardní ETL nástroj s podporou Big Data od Hitachi Vantara. Nástroje jsou porovnány na základě škálovatelnosti vůči zvětšujícímu se objemu zpracovávaných dat, následně je diskutována pracnost řešení vůči dosaženému výkonu. Bylo zjištěno, že nativní ETL zpracování nabízí mnohem větší výkon než ostatní řešení. Na druhou stranu implementace nativního řešení vyžaduje větší pracnost. The new data have grown in last few years. The new coming data is unstructured, has a large volume and is generated very quickly. Based on this fact, a new concept Big Data has been created. It offers capabilities to process new generated data. The diploma thesis aims to describe Big Data and Big Data processing with ETL. The solutions for ETL processing Big Data are compared. There are native Big Data processing based on MapReduce framework, a specialized ETL tool for Big Data processing by Talend and standard ETL tool supports Big Data by Hitachi Vantara. ETL tools are compared based on scalability for the increasing volume of processed data and man-days needed to implement the solution. The results show that native ETL processing offers better performance than other solutions. On the other hand, implementing a native solution requires more effort.
Collections
- Diplomové práce - 13136 [892]