Recognizing mathematical and chemical formulas in structured documents

Rozpoznávání matematických a chemických vzorců ve strukturovaných dokumentech

Research Projects

Organizational Units

Journal Issue

Abstract

Ve své bakalářské práci se budu zabývat problematikou rozpoznávání jednoduchých matematických a chemických rovnic ve strukturovaných dokumentech. K detekci rovnic využiji systém pro detekci objektů YOLO vytrénovaný na automaticky vygenerovaných trénovacích datech. K rozpoznávání jednotlivých znaků použiji OCR engine Tesseract. Pro popis struktury vzorců navrhnu automat a implementuji parser. Nakonec implementuji mobilní aplikaci pro rozpoznávání rovnic v Androidu a otestuji ji.

In my bachelor's thesis I will address the problem of recognizing mathematical and chemical equations in structured documents. For the detection of the equations in a scene I use the famous object detection system YOLO. I train my custom model on automatically generated data. For the recognition of individual characters I will use the OCR engine Tesseract. I propose a finite automaton for the description of equations. Lastly I am going to implement and test an Android mobile application capable of detecting and recognizing simple equations.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By