ČVUT DSpace
  • Prohledat DSpace
  • English
  • Přihlásit se
  • English
  • English
Zobrazit záznam 
  •   ČVUT DSpace
  • České vysoké učení technické v Praze
  • Fakulta informačních technologií
  • katedra softwarového inženýrství
  • Diplomové práce - 18102
  • Zobrazit záznam
  • České vysoké učení technické v Praze
  • Fakulta informačních technologií
  • katedra softwarového inženýrství
  • Diplomové práce - 18102
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

Framework pro podobnostní vyhledávání tabulkových datasetů

Framework for similarity search of tabular datasets

Typ dokumentu
diplomová práce
master thesis
Autor
Olivie Abigail Franklová
Vedoucí práce
Bernhauer David
Oponent práce
Rozinek Ondřej
Studijní obor
Softwarové inženýrství
Studijní program
Informatika
Instituce přidělující hodnost
katedra softwarového inženýrství



Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznam
Abstrakt
Cílem této práce je analyzovat postupy pro porovnávání tabulkových dat a navrhnout framework, který umožní efektivní porovnávání tabulek. Práce se zaměřuje na definici podobnosti tabulek na základě podobnosti jejich sloupců a na návrh modulárního řešení, které umožňuje generovat metadata z tabulek a tato metadata poté porovnávat. V rámci práce byl implementován framework v jazyce Python, který dokáže spolehlivě identifikovat tabulky s vysokou mírou podobnosti. Výsledky experimentů ukázaly, že framework je schopen přesně rozpoznat velmi podobné tabulky, například tabulky, které jsou modifikacemi původních dat. Framework má široké možnosti využití, například při vyhledávání duplicit v databázích, porovnávání verzí tabulek pro detekci změn nebo při kontrole integrity dat. Práce je rozdělena do tří hlavních částí. První provádí rešerši a definici pojmů, druhá se zaměřuje na analýzu, návrh a implementaci frameworku a třetí provádí testování algoritmů prostřednictvím experimentů. Framework představuje užitečný nástroj pro práci s tabulkovými daty a díky své modularitě umožňuje snadné rozšíření o další porovnávací metody nebo specifické nástroje pro práci s různými typy datových struktur.
 
The purpose of this thesis is to analyze methods for comparing tabular data and design a framework that enables efficient table comparison. The work focuses on defining table similarity based on the similarity of their columns and proposing a modular solution that generates metadata from tables and compares this metadata. As part of the thesis, a framework was implemented in Python, capable of reliably identifying tables with a high degree of similarity. Experimental results demonstrated that the framework can accurately recognize highly similar tables, such as tables that are modifications of original data. The framework has a wide range of applications, such as detecting duplicates in databases, comparing table versions to identify changes, or ensuring data integrity. The thesis is divided into three main parts. The first part explores existing methods and defines key concepts. The second part focuses on the framework's analysis, design and implementation. The third part tests the algorithms through experiments. The framework is a useful tool for working with tabular data and, thanks to its modularity, allows for easy extension with additional comparison methods or specialized tools for handling various types of data structures.
 
URI
http://hdl.handle.net/10467/121009
Zobrazit/otevřít
PLNY_TEXT (5.102Mb)
PRILOHA (3.117Mb)
PRILOHA (31.26Mb)
POSUDEK (52.33Kb)
POSUDEK (55.01Kb)
Kolekce
  • Diplomové práce - 18102 [1094]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV
 

 

Užitečné odkazy

ČVUT v PrazeÚstřední knihovna ČVUTO digitální knihovně ČVUTInformační zdrojePodpora studiaPodpora publikování

Procházet

Vše v DSpaceKomunity a kolekceDle data publikováníAutořiNázvyKlíčová slovaTato kolekceDle data publikováníAutořiNázvyKlíčová slova

Můj účet

Přihlásit se

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV