Deduplikace dat o veřejných zakázkách
Deduplication of public procurement data
dc.contributor.advisor | Skuhrovec Jiří | |
dc.contributor.author | Yuliia Syzon | |
dc.date.accessioned | 2020-06-19T22:52:09Z | |
dc.date.available | 2020-06-19T22:52:09Z | |
dc.date.issued | 2020-06-19 | |
dc.identifier | KOS-862365996605 | |
dc.identifier.uri | http://hdl.handle.net/10467/88285 | |
dc.description.abstract | Tato práce se věnuje propojení záznamů z různých informačních zdrojů popisujících stejnou veřejnou zakázku. Je využit princip record linkage, jehož jednotlivé kroky jsou adaptovány na zpracovávaný problém. Hledání nejlepšího kandidáta pro shodu probíhá na základě počítání míry podobnosti pro dva záznamy. Jsou analyzována dostupná datová pole z pohledu spolehlivosti a přínosu (na základě kterých datových polí se dá s určitou jistotou říct, že dva záznamy popisují stejný objekt). Přínos každého datového pole (koeficient, který určuje jak moc přispěje shoda v tomto datovém poli k podobnosti) je analyzován pomocí genetického algoritmu, minimalizujícího chybovost modelu propojení záznamů s vybraným parametrickým nastavením. | cze |
dc.description.abstract | This work is dedicated to matching records from different data sources describing the same public procurement. The record linkage principle is used, its individual steps are adapted to the problem. The search of the best match candidate is done by calculating the similarity scores for two records. The available data fields are analyzed for reliability and benefit (based on which data fields can be said with certainty that two records describe the same object). The contribution of each data field (a coefficient that determines how much match in that data field contributes to the score) is analyzed using a genetic algorithm that minimizes the error rate of the matching model with selected parametric setting. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | matchování | cze |
dc.subject | propojení záznamů | cze |
dc.subject | veřejné zakázky | cze |
dc.subject | genetický algoritmus | cze |
dc.subject | předvýběr datových polí | cze |
dc.subject | skóre podobnosti | cze |
dc.subject | metriky podobnosti | cze |
dc.subject | data matching | eng |
dc.subject | record linkage | eng |
dc.subject | public procurement | eng |
dc.subject | genetic algorithm | eng |
dc.subject | data fields preselection | eng |
dc.subject | similarity score | eng |
dc.subject | similarity metrics | eng |
dc.title | Deduplikace dat o veřejných zakázkách | cze |
dc.title | Deduplication of public procurement data | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.contributor.referee | Pernecká Eva | |
theses.degree.discipline | Znalostní inženýrství | cze |
theses.degree.grantor | katedra aplikované matematiky | cze |
theses.degree.programme | Informatika | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 18105 [292]