Zobrazit minimální záznam

Deduplication of public procurement data



dc.contributor.advisorSkuhrovec Jiří
dc.contributor.authorYuliia Syzon
dc.date.accessioned2020-06-19T22:52:09Z
dc.date.available2020-06-19T22:52:09Z
dc.date.issued2020-06-19
dc.identifierKOS-862365996605
dc.identifier.urihttp://hdl.handle.net/10467/88285
dc.description.abstractTato práce se věnuje propojení záznamů z různých informačních zdrojů popisujících stejnou veřejnou zakázku. Je využit princip record linkage, jehož jednotlivé kroky jsou adaptovány na zpracovávaný problém. Hledání nejlepšího kandidáta pro shodu probíhá na základě počítání míry podobnosti pro dva záznamy. Jsou analyzována dostupná datová pole z pohledu spolehlivosti a přínosu (na základě kterých datových polí se dá s určitou jistotou říct, že dva záznamy popisují stejný objekt). Přínos každého datového pole (koeficient, který určuje jak moc přispěje shoda v tomto datovém poli k podobnosti) je analyzován pomocí genetického algoritmu, minimalizujícího chybovost modelu propojení záznamů s vybraným parametrickým nastavením.cze
dc.description.abstractThis work is dedicated to matching records from different data sources describing the same public procurement. The record linkage principle is used, its individual steps are adapted to the problem. The search of the best match candidate is done by calculating the similarity scores for two records. The available data fields are analyzed for reliability and benefit (based on which data fields can be said with certainty that two records describe the same object). The contribution of each data field (a coefficient that determines how much match in that data field contributes to the score) is analyzed using a genetic algorithm that minimizes the error rate of the matching model with selected parametric setting.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectmatchovánícze
dc.subjectpropojení záznamůcze
dc.subjectveřejné zakázkycze
dc.subjectgenetický algoritmuscze
dc.subjectpředvýběr datových polícze
dc.subjectskóre podobnosticze
dc.subjectmetriky podobnosticze
dc.subjectdata matchingeng
dc.subjectrecord linkageeng
dc.subjectpublic procurementeng
dc.subjectgenetic algorithmeng
dc.subjectdata fields preselectioneng
dc.subjectsimilarity scoreeng
dc.subjectsimilarity metricseng
dc.titleDeduplikace dat o veřejných zakázkáchcze
dc.titleDeduplication of public procurement dataeng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereePernecká Eva
theses.degree.disciplineZnalostní inženýrstvícze
theses.degree.grantorkatedra aplikované matematikycze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam