Přidání kontextu do konvolučních sítí
Adding Context into Convolutional Neural Networks
Type of document
bakalářská prácebachelor thesis
Author
Sebastian Štefko
Supervisor
Šochman Jan
Opponent
Zimmermann Karel
Field of study
Základy umělé inteligence a počítačových vědStudy program
Otevřená informatikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Nejnovější články ukazují, že neuronové sítě mohou těžit z využití širšího receptivního pole (kontextu) již na nižších vrstvách. Naopak běžně používaná architektura ResNet má pouze lokální kontext a její receptivní pole se zvětšuje pomalu. Trvá několik vrstev, než se její kontext rozšíří. Navrhujeme několik metod, jak přidat kontext do architektury ResNet. Konkrétně jsme zkoušeli: (i) vygenerovat náhodný kontext, (ii) rozšířit náhodný kontext o relativní poziční kódování a (iii) naimplementovat self-attention s náhodným kontextem a pozičním kódováním. Prozkoumali jsme také možnosti použití dilatované konvoluce a její modifikaci s náhodným tvarem konvolučního jádra. Navržená rozšíření testujeme na úloze klasifikace do deseti tříd. Měříme, jak neuronová síť využívá kontext pomocí receptivního pole a efektivního receptivního pole. Naše metody porovnáváme s architekturami jako je HRNet, Vision Transformer a ConvNext. Výsledky ukazují, že síť ResNet 50 využívá rozšířeného kontextu již na nižších vrstvách, nárůst výkonu však nebyl zaznamenán. Použití dilatované konvoluce s náhodným tvarem jádra konvoluce přineslo malé zlepšení ve výkonu. I přes výsledky našich experimentů je rozšířený kontext považován za přínosný ve snaze zlepšit přesnost neuronových sítí. Recent papers show that neural networks can benefit from using a wider receptive field (context) already in lower layers. On the contrary, a commonly used ResNet has a local context, and the receptive field grows slowly. It takes multiple layers before the ResNet reaches a broader context. We propose several methods how to add context into ResNet architecture. In particular, we experimented with: (i) generating random context, (ii) enhancing random context with the relative positional encoding, and (iii) implementing self-attention with the random context and relative positional encoding. Alternatively, we tried using dilated convolution and its alteration with a randomised shape of a convolutional kernel. We test the proposed ResNet extensions on the task of classification into ten classes. We measure how well the networks utilise the context using the receptive field and the effective receptive field. Our methods are compared with HRNet, Vision Transformer and ConvNext architectures. Results show that the utilisation of the context was increased already in the lower layers of the ResNet 50 network. However, the performance increase was not registered. Only using randomised dilated convolution has shown a slight performance increase. Despite the results of our experiments, the extended context is still considered beneficial in the pursuit of better performance.
Collections
- Bakalářské práce - 13133 [778]