Construction of a Neural Networks model for translation of recorded sign language
Konstrukce modelu pro překlad záznamu znakového jazyka s využitím neuronových sítí
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
I přes nedávné pokroky v oblasti rozpoznávání znakového jazyka je patrný nedostatek zaměření na překlad v reálném čase, který by komunitě neslyšících mohl přinést největší prospěch. V rámci této práce se pokoušíme eliminovat tyto nedostatky vytvořením aplikace pro překlad 49 znaků amerického znakového jazyka v reálném čase v programovacím jazyce Python. Pro rozpoznávání je použita konvoluční neuronová síť a k natrénování modelu jsme shromáždili významně různorodý datový soubor zahrnující fotografie 10 různých znakujících a více než 50 odlišných pozadí s rozličnou náročností. Podařilo se nám dosáhnout testovacího F1-skóre 0,987. Dále jsme vyvinuli metodu pro ohodnocení predikcí v reálném čase, která zohledňuje množství úsilí potřebného od uživatele. Na základě této metody náš model pak dosáhl 100% přesnosti predikcí v reálném čase za příznivých podmínek a 91,8% přesnosti predikcí v reálném čase za velice náročných podmínek, přičemž na referenčním zařízení udržel průměrnou rychlost výstupu na 0,053 vteřinách za snímek. Výsledky tohoto výzkumu mohou pomoci se začleněním komunity neslyšících a zároveň mohou podnítit kladení většího důrazu na vyhodnocování modelů při predikcích v reálném čase.
Despite recent advances in sign language recognition, there remains a notable lack of emphasis on real-time translation from which the signing community may benefit the most. With this thesis, we aim to address this gap by designing a Python application for real-time recognition of 49 static signs of the American Sign Language. The recognition process employs a convolutional neural network, and to train the model, we collected a significantly diverse dataset consisting of approximately 2,000 images per sign, featuring 10 different people and more than 50 distinct backgrounds of various complexity. We managed to achieve 0.987 test F1-score. Furthermore, we developed a framework for model's real-time performance evaluation accounting for the amount of necessary user's effort. Using this form of evaluation, our model exhibited 100 % real-time prediction accuracy under favourable conditions and 91.8 % real-time prediction accuracy under very challenging conditions while maintaining prediction rate of 0.053 seconds per gesture on a reference device. Outcomes of this research may help with integration of the Deaf community as well as promote focus on real-time model evaluation.
Despite recent advances in sign language recognition, there remains a notable lack of emphasis on real-time translation from which the signing community may benefit the most. With this thesis, we aim to address this gap by designing a Python application for real-time recognition of 49 static signs of the American Sign Language. The recognition process employs a convolutional neural network, and to train the model, we collected a significantly diverse dataset consisting of approximately 2,000 images per sign, featuring 10 different people and more than 50 distinct backgrounds of various complexity. We managed to achieve 0.987 test F1-score. Furthermore, we developed a framework for model's real-time performance evaluation accounting for the amount of necessary user's effort. Using this form of evaluation, our model exhibited 100 % real-time prediction accuracy under favourable conditions and 91.8 % real-time prediction accuracy under very challenging conditions while maintaining prediction rate of 0.053 seconds per gesture on a reference device. Outcomes of this research may help with integration of the Deaf community as well as promote focus on real-time model evaluation.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.