Zobrazit minimální záznam

Automated processing of printed fuel receipt



dc.contributor.advisorJirovský Václav
dc.contributor.authorVojtěch Dalecký
dc.date.accessioned2021-01-29T00:42:04Z
dc.date.available2021-01-29T00:42:04Z
dc.date.issued2021-01-28
dc.identifierKOS-1089751714005
dc.identifier.urihttp://hdl.handle.net/10467/92875
dc.description.abstractTato práce se věnuje automatizaci procesu vyčítání klíčových dat z fotografiítištěných účtenek vydaných čerpacími stanicemi. Důraz je kladen předevšímna získání celkové ceny, času a data vystavení účtenky.Na základě analýzy přístupů k extrakci textových řetězců z fotografií tiště-ných dokumentů jsou vybrány takové přístupy, které poskytují nejlepší možnévýsledky a to i za cenu vyšší výpočetní náročnosti. Představený algoritmus seskládá z detekce textových řetězců, jejich rozpoznáním, analýzy získanéhostrojově kódovaného textu, následné extrakce hledaných textových řetězcůa jejich korektury. Při výběru technologií použitých při jeho realizaci je kla-den důraz na to, aby byly distribuovány pod svobodnými licencemi umožňujícíjejich bezplatné využití pro komerční účely.Výsledkem práce je knihovna poskytující plně konfigurovatelné rozhraník představenému algoritmu. Rozhraní je koncipováno tak, aby se dal algorit-mus využít pro extrakci jakýchkoliv textových řetězců z fotografií libovolnýchtištěných dokumentů. Díky tomu se značně zvyšuje jeho využitelnost.Úspěšnost algoritmu je změřena na vlastním datasetu, který se skládá z fo-tografií tištěných účtenek vydaných čerpacími stanicemi. Představený algorit-mus při extrakci celkové ceny, data a času vystavení účtenky dosáhl úspěšnostípostupně 76,76 %, 60,92 % a 60,92 %. Práce tak představuje robustní a spo-lehlivé řešení pro extrakci informací z fotografií tištěných dokumentů.cze
dc.description.abstractThe aim of this thesis is to automize the process of extracting key datafrom the images of fuel receipts. This thesis focuses in particular on obtainingthe total price, time and date information. The methods used in this thesiswere chosen after the analysis of different approaches to the printed documenttext detection. Emphasis is placed on the high accuracy of the results even atthe cost of higher computational complexity. The presented algorithm consistsof following steps -- the detection of the text strings, their recognition andanalysis, followed by the extraction of the desired data and its post-processing.The chosen technologies are distributed under free licenses allowing to use thealgorithm for commercial purposes.The result of this work is a library providing a fully configurable interfacefor the introduced algorithm. The interface is highly scalable and as a resultit can be used for the extraction of any text strings from the images of printeddocuments. This increases its usability greatly.The performance of the algorithm is measured on personal dataset whichconsists of the images of fuel receipts from various Czech gas stations. Thealgorithm has achieved the 76.76 %, 60.92 % and 60.92 % success rate for theextraction of price, date and time. The resulting work presents a robust andreliable solution for the data extraction from the images of printed documents.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectStrojové viděnícze
dc.subjectDetekce textucze
dc.subjectRozpoznání textucze
dc.subjectOCRcze
dc.subjectEx-trakce informacícze
dc.subjectÚčtenkacze
dc.subjectJavacze
dc.subjectComputer visioneng
dc.subjectText detectioneng
dc.subjectText recognitioneng
dc.subjectOCReng
dc.subjectInformation extractioneng
dc.subjectReceipteng
dc.subjectJavaeng
dc.titleAutomatické zpracování tištěné papírové účtenky za palivocze
dc.titleAutomated processing of printed fuel receipteng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereePauš Petr
theses.degree.disciplineWebové a softwarové inženýrstvícze
theses.degree.grantorkatedra softwarového inženýrstvícze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam