ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Computer Science and Engineering
  • Master Theses - 13136
  • View Item
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Computer Science and Engineering
  • Master Theses - 13136
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Reprezentace PDF dokumentů pro automatickou analýzu

PDF document representation for automated analysis

Type of document
diplomová práce
master thesis
Author
Jakub Váca
Supervisor
Rehák Martin
Opponent
Khikhlukha Danila
Field of study
Softwarové inženýrství
Study program
Otevřená informatika
Institutions assigning rank
katedra počítačů



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
PDF dokumenty jsou nejpopulárnější forma výměny informací mezi byznysy a jednotlivci. S vysokou popularitou PDF mezi firmami roste i problém padělání PDF dokumentů. V této diplomové práci se zabýváme problémem předzpracování PDF dokumentů pro automatickou analýzu. Z dokumentů extrahujeme relevantní informace, které následně ukládáme do formátu vhodném pro zpracování strojovým učením. Navíc implementujeme několik detektorů modifikací, které pokrývají různé typy PDF modifikací. Detektory modifikací otestujeme na uměle vytvořených i veřejně dostupných datech a ukážeme, že spolehlivě detekujeme různe typy modifikací dokumentu. Dále ukážeme, že uložením výsledku předzpracování dat můžeme zrychlit jakýkoliv následující trénovací cyklus až 18krát pro skenované dokumenty. Během celého vývoje zohledňujeme ukládání dat v souladu s legislativou GDPR, tak aby byla aplikace připravena pro použití v praxi.
 
PDF documents are the most popular electronic form of information exchange between businesses and individuals. With its popularity in business usage, forgery of PDF documents is an ever-growing threat. In this thesis, we address the problem of preprocessing of PDF documents for automated analysis. We extract relevant features and store them in serialization format suitable for machine learning. We additionally implement several modification detectors covering various types of PDF modifications. We experimentally evaluate modification detectors on labelled and real-world data and show that our application reliably detects various types of document modifications. We also show that by storing the results of preprocessing, any subsequent training cycle can be sped up to 18 times for scanned dataset. All of the above is done while taking the GDPR legislation into account, so an application is ready for business use.
 
URI
http://hdl.handle.net/10467/88065
View/Open
PLNY_TEXT (3.897Mb)
PRILOHA (44.73Kb)
PRILOHA (8.964Mb)
PRILOHA (12.43Mb)
POSUDEK (141.6Kb)
POSUDEK (309.9Kb)
Collections
  • Diplomové práce - 13136 [966]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV