Reprezentace PDF dokumentů pro automatickou analýzu
PDF document representation for automated analysis
dc.contributor.advisor | Rehák Martin | |
dc.contributor.author | Jakub Váca | |
dc.date.accessioned | 2020-06-16T22:51:41Z | |
dc.date.available | 2020-06-16T22:51:41Z | |
dc.date.issued | 2020-06-16 | |
dc.identifier | KOS-960815828705 | |
dc.identifier.uri | http://hdl.handle.net/10467/88065 | |
dc.description.abstract | PDF dokumenty jsou nejpopulárnější forma výměny informací mezi byznysy a jednotlivci. S vysokou popularitou PDF mezi firmami roste i problém padělání PDF dokumentů. V této diplomové práci se zabýváme problémem předzpracování PDF dokumentů pro automatickou analýzu. Z dokumentů extrahujeme relevantní informace, které následně ukládáme do formátu vhodném pro zpracování strojovým učením. Navíc implementujeme několik detektorů modifikací, které pokrývají různé typy PDF modifikací. Detektory modifikací otestujeme na uměle vytvořených i veřejně dostupných datech a ukážeme, že spolehlivě detekujeme různe typy modifikací dokumentu. Dále ukážeme, že uložením výsledku předzpracování dat můžeme zrychlit jakýkoliv následující trénovací cyklus až 18krát pro skenované dokumenty. Během celého vývoje zohledňujeme ukládání dat v souladu s legislativou GDPR, tak aby byla aplikace připravena pro použití v praxi. | cze |
dc.description.abstract | PDF documents are the most popular electronic form of information exchange between businesses and individuals. With its popularity in business usage, forgery of PDF documents is an ever-growing threat. In this thesis, we address the problem of preprocessing of PDF documents for automated analysis. We extract relevant features and store them in serialization format suitable for machine learning. We additionally implement several modification detectors covering various types of PDF modifications. We experimentally evaluate modification detectors on labelled and real-world data and show that our application reliably detects various types of document modifications. We also show that by storing the results of preprocessing, any subsequent training cycle can be sped up to 18 times for scanned dataset. All of the above is done while taking the GDPR legislation into account, so an application is ready for business use. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | cze | |
dc.subject | extrahování vlastností | cze |
dc.subject | falšování | cze |
dc.subject | serializace | cze |
dc.subject | předzpracování | cze |
dc.subject | GDPR | cze |
dc.subject | eng | |
dc.subject | information extraction | eng |
dc.subject | forgery | eng |
dc.subject | serialization | eng |
dc.subject | preprocessing | eng |
dc.subject | GDPR | eng |
dc.title | Reprezentace PDF dokumentů pro automatickou analýzu | cze |
dc.title | PDF document representation for automated analysis | eng |
dc.type | diplomová práce | cze |
dc.type | master thesis | eng |
dc.contributor.referee | Khikhlukha Danila | |
theses.degree.discipline | Softwarové inženýrství | cze |
theses.degree.grantor | katedra počítačů | cze |
theses.degree.programme | Otevřená informatika | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Diplomové práce - 13136 [833]