Extrakce rozložení novinových článku z rasterových předloh
News Article Layout Extraction from Bitmaps Files
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Vít Zeman
Vedoucí práce
Drchal Jan
Oponent práce
Kubalík Jiří
Studijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra řídicí technikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Cílem práce je extrakce novinových článků z rasterovaných předloh. Dále byl zpracován přehled moderních metod používaných pro detekci objektů se zaměřením na R-CNN metody. Tyto metody byly implementovány pomocí knihovny detectron2 programovacího jazyka Python. Dále, bylo nutné zpracovat poskytnuté novinové datasety. Součástí zpracování bylo převedení do rasterované podoby a vytvoření anotačního souboru z poskytnutých XML souborů. Provedené experimenty především prozkoumávají chování modelu na různých trénovacích datasetech. Vedlejším výstupem práce byla detekce jednotlivých novinových elementů. The aim of this thesis is the extraction of newspaper articles from bitmap files. State of the art of object detection was described with a focus on R-CNN architectures. These methods were implemented via detectron2, a Python library. Additionally, preprocessing of the provided dataset was necessary. The conversion to bitmap files was needed as well as the creation of annotation files from the provided XML files. Performed experiments are mainly exploring how the model performs with changes on the training dataset. The secondary output of the thesis was the detection of newspaper elements.
Kolekce
- Bakalářské práce - 13135 [477]