Deduplikace dat o veřejných zakázkách

Yuliia Syzon

Deduplication of public procurement data

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Yuliia Syzon

Vedoucí práce

Skuhrovec Jiří

Oponent práce

Pernecká Eva

Studijní obor

Znalostní inženýrství

Studijní program

Informatika

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce se věnuje propojení záznamů z různých informačních zdrojů popisujících stejnou veřejnou zakázku. Je využit princip record linkage, jehož jednotlivé kroky jsou adaptovány na zpracovávaný problém. Hledání nejlepšího kandidáta pro shodu probíhá na základě počítání míry podobnosti pro dva záznamy. Jsou analyzována dostupná datová pole z pohledu spolehlivosti a přínosu (na základě kterých datových polí se dá s určitou jistotou říct, že dva záznamy popisují stejný objekt). Přínos každého datového pole (koeficient, který určuje jak moc přispěje shoda v tomto datovém poli k podobnosti) je analyzován pomocí genetického algoritmu, minimalizujícího chybovost modelu propojení záznamů s vybraným parametrickým nastavením.

This work is dedicated to matching records from different data sources describing the same public procurement. The record linkage principle is used, its individual steps are adapted to the problem. The search of the best match candidate is done by calculating the similarity scores for two records. The available data fields are analyzed for reliability and benefit (based on which data fields can be said with certainty that two records describe the same object). The contribution of each data field (a coefficient that determines how much match in that data field contributes to the score) is analyzed using a genetic algorithm that minimizes the error rate of the matching model with selected parametric setting.