Towards a dataset for estimation of keyboard fingerings

Vytváření datové sady pro odhad prstokladu

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

V této práci byl vyvinut postup, který kombinuje detekci klaviatury, segmentaci kláves, klavírní transkripci a odhad pozice rukou za účelem odhadu prstokladu z klavírních videí nahrávaných shora. Byl natrénován model pro lokalizaci klaviatury, následovaný algoritmem pro segmentaci a označování kláves. Lokalizace a segmentace klaviatury spolu s dělením videí na sekce byly testovány na 100 nejnovějších videích z pěti vybraných YouTube kanálů. Dále byl analyzován obsah těchto videí z hlediska datových bodů relevantních pro hru na klavír. Prstoklad byl odhadnut pomocí metriky vzdálenosti mezi rukama a hranicemi kláves, čímž bylo dosaženo přesnosti až 82 %. Využití znalostí o pozicích rukou také vedlo ke zlepšení F1 skóre klavírní transkripce o až 6,6 %. Výše zmíněné výsledky byly odvozeny z videa se 1227 notami s referenčním MIDI a ručně označenými prstoklady.

In this work, a system was developed that combines keyboard detection, key segmentation, piano transcription, and hand-tracking into a pipeline for general piano performance videos recorded from an overhead perspective. A model was trained for localizing keyboards, and the background of the keyboard scenes was estimated, followed by a procedure for segmenting and labeling the keys. Keyboard detection, segmentation, and video sectioning were tested on the 100 latest videos from 5 prospective YouTube channels. Furthermore, the content of these videos was analyzed for data points relevant to pianist movements. Keyboard fingerings were predicted using a distance metric between the hands and key bounds, achieving an 82% accuracy. Utilizing the knowledge of hand positions also demonstrated up to a 6.6% improvement in piano transcription F1 score. An evaluation video containing 1227 notes with manually labeled fingerings and ground truth midi was created to derive the aforementioned fingering and transcription results.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By