Vyhodnocení robustnosti a limitů pro metody počítání lidí v obraze

Martin Vadlejch

Crowd Counting Methods - Robustness and Applicability Limits

Typ dokumentu

diplomová práce
master thesis

Autor

Martin Vadlejch

Vedoucí práce

Naiser Filip

Oponent práce

Klouda Karel

Studijní obor

Znalostní inženýrství

Studijní program

Informatika

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Technologie sčítání davů lidí má potenciál být pro společnost cenným nástrojem v mnoha ohledech, například pro optimalizaci řízení davů a zvýšení veřejné bezpečnosti. Automatizované metody sčítání davů jsou nezbytné vzhledem k rozsahu tohoto úkolu a skutečnosti, že ruční sčítání osob v přeplněných oblastech může být neproveditelné nebo náchylné k chybám. Automatizované sčítání davů navíc umožňuje sledovat pohyb a hustotu davu v reálném čase, což může být zásadní při mimořádných událostech nebo rozsáhlých akcích. Navzdory pokroku v metodách automatického sčítání davů však jejich robustnost zůstává problémem, protože chybovost není konzistentně úměrná skutečnému počtu osob na snímku, a často se vyskytují případy výrazného nadhodnocení i podhodnocení. Tato nekonzistence je v současnosti činí nespolehlivými pro praktické aplikace. Vzhledem k potenciálnímu využití technologie automatického sčítání davů a možným výhodám pro společnost je tato oblast výzkumu a vývoje však velmi slibná. V této práci vyhodnocujeme přesnost a spolehlivost současných nejmodernějších metod v náročných podmínkách, které testujeme na našich specializovaných souborech dat, a navrhujeme metodiku trénování pro vytvoření robustnějších modelů. Zjistili jsme, že hlubší enkodéry silně zvyšují robustnost těchto modelů. Zjistili jsme také, že globální self-attention mechanismus zvyšuje přesnost sčítání, zejména ve zhoršených světelných podmínkách, což jsme vypozorovali na základě 72 různých moderních metod. Navrhli jsme také upravený inferenční postup, který umožňuje sčítání davů na snímcích s vysokým rozlišením s běžným hardwarem a výrazně zlepšuje přesnost s omezenou pamětí.

Crowd counting technology has the potential to be a valuable tool for society in a variety of ways, such as optimizing crowd management and improving public safety. Automated crowd-counting methods are essential due to the sheer scale of the task and the fact that manually counting individuals in crowded areas can be unfeasible or error-prone. Moreover, automated crowd counting can enable real-time crowd movement and density monitoring, which can be crucial in emergencies or large-scale events. However, despite advances in crowd-counting methods, their robustness remains a challenge as the error rate is not consistently proportional to the actual count of people in an image, with instances of both significant over- and underestimation occurring frequently. This inconsistency renders them unreliable for practical applications. Nevertheless, with further development and refinement, crowd-counting technology has the potential to provide essential benefits to society, making it a promising area of research and development. In this work, we evaluate the current state-of-the-art methods' accuracy and reliability in challenging conditions, which we test on our specialized datasets, and devise a training methodology to produce more robust models. We have found that deeper encoders are critical for improving the model's robustness. We also found the global self-attention mechanism to benefit counting accuracy, particularly in low-light scenarios, which we have observed in a corpus of 72 different state-of-the-art methods. We also devise a patched inference pipeline that enables crowd counting in high-resolution images with conventional hardware and drastically improves accuracy with limited memory.