Zobrazit minimální záznam

PDF document representation for automated analysis



dc.contributor.advisorRehák Martin
dc.contributor.authorJakub Váca
dc.date.accessioned2020-06-16T22:51:41Z
dc.date.available2020-06-16T22:51:41Z
dc.date.issued2020-06-16
dc.identifierKOS-960815828705
dc.identifier.urihttp://hdl.handle.net/10467/88065
dc.description.abstractPDF dokumenty jsou nejpopulárnější forma výměny informací mezi byznysy a jednotlivci. S vysokou popularitou PDF mezi firmami roste i problém padělání PDF dokumentů. V této diplomové práci se zabýváme problémem předzpracování PDF dokumentů pro automatickou analýzu. Z dokumentů extrahujeme relevantní informace, které následně ukládáme do formátu vhodném pro zpracování strojovým učením. Navíc implementujeme několik detektorů modifikací, které pokrývají různé typy PDF modifikací. Detektory modifikací otestujeme na uměle vytvořených i veřejně dostupných datech a ukážeme, že spolehlivě detekujeme různe typy modifikací dokumentu. Dále ukážeme, že uložením výsledku předzpracování dat můžeme zrychlit jakýkoliv následující trénovací cyklus až 18krát pro skenované dokumenty. Během celého vývoje zohledňujeme ukládání dat v souladu s legislativou GDPR, tak aby byla aplikace připravena pro použití v praxi.cze
dc.description.abstractPDF documents are the most popular electronic form of information exchange between businesses and individuals. With its popularity in business usage, forgery of PDF documents is an ever-growing threat. In this thesis, we address the problem of preprocessing of PDF documents for automated analysis. We extract relevant features and store them in serialization format suitable for machine learning. We additionally implement several modification detectors covering various types of PDF modifications. We experimentally evaluate modification detectors on labelled and real-world data and show that our application reliably detects various types of document modifications. We also show that by storing the results of preprocessing, any subsequent training cycle can be sped up to 18 times for scanned dataset. All of the above is done while taking the GDPR legislation into account, so an application is ready for business use.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectPDFcze
dc.subjectextrahování vlastnostícze
dc.subjectfalšovánícze
dc.subjectserializacecze
dc.subjectpředzpracovánícze
dc.subjectGDPRcze
dc.subjectPDFeng
dc.subjectinformation extractioneng
dc.subjectforgeryeng
dc.subjectserializationeng
dc.subjectpreprocessingeng
dc.subjectGDPReng
dc.titleReprezentace PDF dokumentů pro automatickou analýzucze
dc.titlePDF document representation for automated analysiseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeKhikhlukha Danila
theses.degree.disciplineSoftwarové inženýrstvícze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu







Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam