Využití rekurentních sítí pro rozpoznávání textu v obraze
Text Recognition in Images Using Recurrent Neural Networks
dc.contributor.advisor | Šochman Jan | |
dc.contributor.author | Moravová Alena | |
dc.date.accessioned | 2017-02-21T15:29:38Z | |
dc.date.available | 2017-02-21T15:29:38Z | |
dc.date.issued | 2016-05-27 | |
dc.identifier | KOS-587864907505 | |
dc.identifier.uri | http://hdl.handle.net/10467/67363 | |
dc.description.abstract | Rozpoznávání textu patří mezi klasické problémy počítačového zpracování obrazu. Úloha se skládá ze dvou částí: detekce textu v obrazu a klasifikace detekovaného textu. Během detekce textu jsou nalezeny výseky obrazu obsahující text. Ve fázi klasifikace textu se čte text v daném výseku. Tato práce se zabývá úlohou klasifikace detekovaného textu. Pro řešení úlohy byl použit existující model: konvoluční rekurentní neuronová síť od autorů Shi et. al.. Tento model se skládá ze tří hlavních komponent: z hluboké konvoluční sítě VGG Net, z obousměrné LSTM a z CTC algoritmu pro přepis do finálního textu. Tyto tři komponenty jsou analyzovány v teoretické části práce. Praktická část začíná replikací původních výsledků [29]. Následně byly navrženy tři změny modelu, které byly otestovány na dvou datasetech, ICDAR 2013 a ICDAR 2015. Jejich výsledky jsou porovnány s původním modelem. Jedna z navržených změn mírně vylepšila přesnost studovaného modelu a druhá vedla k objevení menších nedostatků na trénovací sadě, které mohou sloužit jako podklad pro budoucí práci. | cze |
dc.description.abstract | The image-based text recognition is a classical problem in computer vision. The problem usually consists of two stages: the text detection and text recognition. During the text detection stage the bounding boxes containing the text are selected in the input image. In the text recognition stage the label corresponding to the text in the bounding box is found. This thesis is concerned with the text recognition stage. An existing model, the convolutional recurrent neural network by authors Shi et. al., was used for the task. This model consists of three main components: the VGG Net, which is a convolutional feature extractor, the bidirectional LSTM for sequence prediction, and the CTC algorithm for final transcription of labels. These three parts are analyzed in the theoretical part of the thesis. The practical part begins with the replication of the results for the original model. Three changes to the model are then proposed and evaluated on two standard datasets, ICDAR 2013 and ICDAR 2015, and compared to the original model. One change slightly improved the accuracy of the model and another one lead to the identification of small defects in the training dataset which might be addressed in the future work. | eng |
dc.language.iso | ENG | |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | konvoluční neuronové sítě, rekurentní sítě, CTC algoritmus, obousměrné LSTM | cze |
dc.subject | convolutional neural network, connectionist temporal classificator, bidirectional LSTM, recurrent neural networks | eng |
dc.title | Využití rekurentních sítí pro rozpoznávání textu v obraze | cze |
dc.title | Text Recognition in Images Using Recurrent Neural Networks | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.date.accepted | 2016-06-21 | |
dc.contributor.referee | Flach Boris | |
theses.degree.discipline | Informatika a počítačové vědy | cze |
theses.degree.grantor | katedra kybernetiky | cze |
theses.degree.programme | Otevřená informatika | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 13133 [778]