Trekování lidí pomocí počítačového vidění s datovým výstupem
Human tracking using computer vision with a data output
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Vilém Jonák
Vedoucí práce
Leischner Vojtěch
Oponent práce
Berka Roman
Studijní obor
Počítačové hry a grafikaStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačové grafiky a interakcePráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Vyvinuli jsme interaktivní instalaci pro trackování lidí kamerou zavěšenou u stropu a následné vytvoření odpovídajícího prostorového audia v jejich sluchátkách. Prostorový mix je renderován pomocí Resonance Audio enginu[1]. Hlavní problém, který jsme řešili, bylo zapamatovávání si detekovaného posluchače tak, aby pokud detekce selže, ztratí posluchače, a po chvíli jej znovu objeví, se jeho identita neměnila. Minimalizace této chyby je zásadní pro správné fungování celé instalace. Detekce lidí a jejich trackování je sdílená problematika počítačového vidění. Existuje proto mnoho řešení, hodící se vždy na konkrétní případ. Potřebovali jsme vyřešit jak trackovat lidi shora, přiřadit jim identifikátor a ten si společně s nimi zapamatovat. Rozhodli jsme se pro použití konvoluční neurální sítě YOLOv4 pro detekci lidí z obrazu přijatého z kamery a DeepSort algoritmus pro trackování. YOLO se snaží předpovídat ohraničujicí oblast společně s třídními pravděpodobnostmi pro tyto oblasti. Je to samostatná neurální síť[2]. Cíl této práce není vytvoření trackovacího algoritu, ale výběr toho nejvhodnějšího a jeho správná implementace a rozšíření. Testováním s uživateli jsme potvrdili, že naše aplikace najde uplatnění ve více prostředích. Například by se dala využít v galeriích We have developed an interactive installation where our program tracks people with a camera mounted on the ceiling and creates an appropriate spatial audio mix for their headphones. The spatial mix is rendered with the Resonance Audio engine[1]. The main problem that we needed to solve was to remember detected listener positions, so if the detection fails and loses track of them and then again finds them, their identity would not change. Minimizing this mismatch rate is crucial for the correct function of the whole installation. Human detection and tracking is a shared computer vision task. Many solutions exist that are appropriate for particular use cases. We needed to solve how to track people from the top view, assign them an id, and remember them with the given id. We decided to use the convolutional neural network YOLOv4 (You Only Look Once) for people detection in the frame received from a camera and the DeepSort algorithm for tracking. YOLO is trying to predict bounding boxes alongside the class probabilities for these boxes. It is a single neural network [2]. This paper’s objective is not to create a tracking algorithm but to decide which one will suit our use case, extend it and implement it properly. We have verified that our application is viable for multiple use cases with user testing. For example, it might be suitable in gallery settings or silent concerts in public spaces.
Kolekce
- Bakalářské práce - 13139 [435]