Automated data drift analysis using great expectations library
Automatická analýza změn v datech s využitím knihovny great expectations
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Tato práce se zabývá detekcí změn v datech. Pro zjišťování kvality dat již existují používané nástroje, jedním z nich je knihovna Great expectations. Mezi jejími funkcemi v době psaní této práce není přítomna detekce vícerozměrného driftu. Práce porovnává různé přístupy, které lze k tomuto účelu použít. Na základě výsledků tohoto srovnání je k rozšíření funkcí knihovny Great expectation použita analýza hlavních komponent.
This thesis concerns itself with the data drift detection. There are already existing and widely used data quality tools, one of them being Great expectations library. Among its features at the time of writing this thesis, multivariate drift detection is not present. The thesis compares different approaches that can be used for this purpose. Based on the results of this comparison, Principal component analysis is used to extend the features of the Great expectation library.
This thesis concerns itself with the data drift detection. There are already existing and widely used data quality tools, one of them being Great expectations library. Among its features at the time of writing this thesis, multivariate drift detection is not present. The thesis compares different approaches that can be used for this purpose. Based on the results of this comparison, Principal component analysis is used to extend the features of the Great expectation library.
Description
Keywords
datový drift, knihovna jazyka Python, knihovna Great Expectations, vícerozměrný posun v datech, analýza hlavních komponent, detekce posunu v datech, rozšíření knihovny, kvalita dat, data drift, Python library, Great Expectations library, multivariate data drift, principal component analysis, drift detection, library extension, data quality vii
Citation
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.