Framework pro podobnostní vyhledávání tabulkových datasetů

Olivie Abigail Franklová

Framework for similarity search of tabular datasets

Typ dokumentu

diplomová práce
master thesis

Autor

Olivie Abigail Franklová

Vedoucí práce

Bernhauer David

Oponent práce

Rozinek Ondřej

Studijní obor

Softwarové inženýrství

Studijní program

Informatika

Instituce přidělující hodnost

katedra softwarového inženýrství

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Cílem této práce je analyzovat postupy pro porovnávání tabulkových dat a navrhnout framework, který umožní efektivní porovnávání tabulek. Práce se zaměřuje na definici podobnosti tabulek na základě podobnosti jejich sloupců a na návrh modulárního řešení, které umožňuje generovat metadata z tabulek a tato metadata poté porovnávat. V rámci práce byl implementován framework v jazyce Python, který dokáže spolehlivě identifikovat tabulky s vysokou mírou podobnosti. Výsledky experimentů ukázaly, že framework je schopen přesně rozpoznat velmi podobné tabulky, například tabulky, které jsou modifikacemi původních dat. Framework má široké možnosti využití, například při vyhledávání duplicit v databázích, porovnávání verzí tabulek pro detekci změn nebo při kontrole integrity dat. Práce je rozdělena do tří hlavních částí. První provádí rešerši a definici pojmů, druhá se zaměřuje na analýzu, návrh a implementaci frameworku a třetí provádí testování algoritmů prostřednictvím experimentů. Framework představuje užitečný nástroj pro práci s tabulkovými daty a díky své modularitě umožňuje snadné rozšíření o další porovnávací metody nebo specifické nástroje pro práci s různými typy datových struktur.

The purpose of this thesis is to analyze methods for comparing tabular data and design a framework that enables efficient table comparison. The work focuses on defining table similarity based on the similarity of their columns and proposing a modular solution that generates metadata from tables and compares this metadata. As part of the thesis, a framework was implemented in Python, capable of reliably identifying tables with a high degree of similarity. Experimental results demonstrated that the framework can accurately recognize highly similar tables, such as tables that are modifications of original data. The framework has a wide range of applications, such as detecting duplicates in databases, comparing table versions to identify changes, or ensuring data integrity. The thesis is divided into three main parts. The first part explores existing methods and defines key concepts. The second part focuses on the framework's analysis, design and implementation. The third part tests the algorithms through experiments. The framework is a useful tool for working with tabular data and, thanks to its modularity, allows for easy extension with additional comparison methods or specialized tools for handling various types of data structures.