Automated data drift analysis using great expectations library

Automatická analýza změn v datech s využitím knihovny great expectations

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Tato práce se zabývá detekcí změn v datech. Pro zjišťování kvality dat již existují používané nástroje, jedním z nich je knihovna Great expectations. Mezi jejími funkcemi v době psaní této práce není přítomna detekce vícerozměrného driftu. Práce porovnává různé přístupy, které lze k tomuto účelu použít. Na základě výsledků tohoto srovnání je k rozšíření funkcí knihovny Great expectation použita analýza hlavních komponent.

This thesis concerns itself with the data drift detection. There are already existing and widely used data quality tools, one of them being Great expectations library. Among its features at the time of writing this thesis, multivariate drift detection is not present. The thesis compares different approaches that can be used for this purpose. Based on the results of this comparison, Principal component analysis is used to extend the features of the Great expectation library.

Description

Citation

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By