Deduplikace dat o veřejných zakázkách
Deduplication of public procurement data
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Yuliia Syzon
Vedoucí práce
Skuhrovec Jiří
Oponent práce
Pernecká Eva
Studijní obor
Znalostní inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se věnuje propojení záznamů z různých informačních zdrojů popisujících stejnou veřejnou zakázku. Je využit princip record linkage, jehož jednotlivé kroky jsou adaptovány na zpracovávaný problém. Hledání nejlepšího kandidáta pro shodu probíhá na základě počítání míry podobnosti pro dva záznamy. Jsou analyzována dostupná datová pole z pohledu spolehlivosti a přínosu (na základě kterých datových polí se dá s určitou jistotou říct, že dva záznamy popisují stejný objekt). Přínos každého datového pole (koeficient, který určuje jak moc přispěje shoda v tomto datovém poli k podobnosti) je analyzován pomocí genetického algoritmu, minimalizujícího chybovost modelu propojení záznamů s vybraným parametrickým nastavením. This work is dedicated to matching records from different data sources describing the same public procurement. The record linkage principle is used, its individual steps are adapted to the problem. The search of the best match candidate is done by calculating the similarity scores for two records. The available data fields are analyzed for reliability and benefit (based on which data fields can be said with certainty that two records describe the same object). The contribution of each data field (a coefficient that determines how much match in that data field contributes to the score) is analyzed using a genetic algorithm that minimizes the error rate of the matching model with selected parametric setting.
Kolekce
- Bakalářské práce - 18105 [292]