Izolace byznysové logiky reprezentované pomocí ETL procesů za pomoci strojového učení
Isolation of Business Logic Represented by ETL Processes by Machine Learning Algorithms
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Juraj Žilt
Vedoucí práce
Hála Petr
Oponent práce
Wang Yuanhong
Studijní obor
Základy umělé inteligence a počítačových vědStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Moderní společnost si v dnešní době může udržet svou existenci pouze díky kvalitním datům a jejich analýze. Data se obvykle sbírají a analyzují několik desetiletí. Bohužel spolu s daty na různých platformách roste i počet transformací Business intelligence. Když se všechna data chtějí přenést do cloudu, je třeba tyto transformace modernizovat. Cílem této bakalářské práce je vytvořit posloupnost algoritmů schopných rozpoznat úlohy Business intelligence. Tato práce využívá techniky detekce plagiátů k odhalení technické struktury opakujících se zdrojových kódů. Nesupervizovaná technika Uniform Manifold Approximation and Projection pro redukci dimenze později analyzuje identifikované struktury. Výstup slouží jako vstup pro další nesupervizovnou metodu, Hierarchical Density-Based Spatial Clustering of Applications with Noise, která generuje přiřazení pro redukovanou dimenzi. Tyto přiřazení jsou považovány za Business intelligence a jsou interpretovány rozhodovacími stromy natrénovanými na neredukovaných datech. Výsledky dokazují funkčnost zvolených algoritmů, které dokázaly odhalit příkazy ve zdrojových kódech SQL definující jednotlivé úlohy používané v celém množství souborů. A modern company nowadays can only keep its existence with good data and data analysis. The data is usually collected and analyzed over multiple decades. Unfortunately, the number of Business intelligence transformations grows with the data on various platforms. When all the data want to be transferred into the cloud, these transformations need to be modernized. This bachelor thesis aims to create a stream of algorithms able to recognize Business intelligence tasks. This thesis uses plagiarism detection techniques to detect the technical structure of the repetitive source codes. The unsupervised learning technique Uniform Manifold Approximation and Projection for dimension reduction later analyzes the identified structures. The output serves as input for another unsupervised method, the Hierarchical Density-Based Spatial Clustering of Applications with Noise, which generates labels for the reduced dimension. These labels are considered Business intelligence and interpreted by decision trees trained on unreduced data. The results prove the functionality of the chosen algorithms, which were able to detect statements in the SQL source codes defining the individual tasks used throughout the multiple files.
Kolekce
- Bakalářské práce - 13133 [777]