Framework pro podobnostní vyhledávání tabulkových datasetů
Framework for similarity search of tabular datasets
Typ dokumentu
diplomová prácemaster thesis
Autor
Olivie Abigail Franklová
Vedoucí práce
Bernhauer David
Oponent práce
Rozinek Ondřej
Studijní obor
Softwarové inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra softwarového inženýrstvíPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Cílem této práce je analyzovat postupy pro porovnávání tabulkových dat a navrhnout framework, který umožní efektivní porovnávání tabulek. Práce se zaměřuje na definici podobnosti tabulek na základě podobnosti jejich sloupců a na návrh modulárního řešení, které umožňuje generovat metadata z tabulek a tato metadata poté porovnávat. V rámci práce byl implementován framework v jazyce Python, který dokáže spolehlivě identifikovat tabulky s vysokou mírou podobnosti. Výsledky experimentů ukázaly, že framework je schopen přesně rozpoznat velmi podobné tabulky, například tabulky, které jsou modifikacemi původních dat. Framework má široké možnosti využití, například při vyhledávání duplicit v databázích, porovnávání verzí tabulek pro detekci změn nebo při kontrole integrity dat. Práce je rozdělena do tří hlavních částí. První provádí rešerši a definici pojmů, druhá se zaměřuje na analýzu, návrh a implementaci frameworku a třetí provádí testování algoritmů prostřednictvím experimentů. Framework představuje užitečný nástroj pro práci s tabulkovými daty a díky své modularitě umožňuje snadné rozšíření o další porovnávací metody nebo specifické nástroje pro práci s různými typy datových struktur. The purpose of this thesis is to analyze methods for comparing tabular data and design a framework that enables efficient table comparison. The work focuses on defining table similarity based on the similarity of their columns and proposing a modular solution that generates metadata from tables and compares this metadata. As part of the thesis, a framework was implemented in Python, capable of reliably identifying tables with a high degree of similarity. Experimental results demonstrated that the framework can accurately recognize highly similar tables, such as tables that are modifications of original data. The framework has a wide range of applications, such as detecting duplicates in databases, comparing table versions to identify changes, or ensuring data integrity. The thesis is divided into three main parts. The first part explores existing methods and defines key concepts. The second part focuses on the framework's analysis, design and implementation. The third part tests the algorithms through experiments. The framework is a useful tool for working with tabular data and, thanks to its modularity, allows for easy extension with additional comparison methods or specialized tools for handling various types of data structures.
Kolekce
- Diplomové práce - 18102 [1094]