Show simple item record

Adding Context into Convolutional Neural Networks



dc.contributor.advisorŠochman Jan
dc.contributor.authorSebastian Štefko
dc.date.accessioned2022-06-09T22:53:36Z
dc.date.available2022-06-09T22:53:36Z
dc.date.issued2022-06-09
dc.identifierKOS-1062775555605
dc.identifier.urihttp://hdl.handle.net/10467/101618
dc.description.abstractNejnovější články ukazují, že neuronové sítě mohou těžit z využití širšího receptivního pole (kontextu) již na nižších vrstvách. Naopak běžně používaná architektura ResNet má pouze lokální kontext a její receptivní pole se zvětšuje pomalu. Trvá několik vrstev, než se její kontext rozšíří. Navrhujeme několik metod, jak přidat kontext do architektury ResNet. Konkrétně jsme zkoušeli: (i) vygenerovat náhodný kontext, (ii) rozšířit náhodný kontext o relativní poziční kódování a (iii) naimplementovat self-attention s náhodným kontextem a pozičním kódováním. Prozkoumali jsme také možnosti použití dilatované konvoluce a její modifikaci s náhodným tvarem konvolučního jádra. Navržená rozšíření testujeme na úloze klasifikace do deseti tříd. Měříme, jak neuronová síť využívá kontext pomocí receptivního pole a efektivního receptivního pole. Naše metody porovnáváme s architekturami jako je HRNet, Vision Transformer a ConvNext. Výsledky ukazují, že síť ResNet 50 využívá rozšířeného kontextu již na nižších vrstvách, nárůst výkonu však nebyl zaznamenán. Použití dilatované konvoluce s náhodným tvarem jádra konvoluce přineslo malé zlepšení ve výkonu. I přes výsledky našich experimentů je rozšířený kontext považován za přínosný ve snaze zlepšit přesnost neuronových sítí.cze
dc.description.abstractRecent papers show that neural networks can benefit from using a wider receptive field (context) already in lower layers. On the contrary, a commonly used ResNet has a local context, and the receptive field grows slowly. It takes multiple layers before the ResNet reaches a broader context. We propose several methods how to add context into ResNet architecture. In particular, we experimented with: (i) generating random context, (ii) enhancing random context with the relative positional encoding, and (iii) implementing self-attention with the random context and relative positional encoding. Alternatively, we tried using dilated convolution and its alteration with a randomised shape of a convolutional kernel. We test the proposed ResNet extensions on the task of classification into ten classes. We measure how well the networks utilise the context using the receptive field and the effective receptive field. Our methods are compared with HRNet, Vision Transformer and ConvNext architectures. Results show that the utilisation of the context was increased already in the lower layers of the ResNet 50 network. However, the performance increase was not registered. Only using randomised dilated convolution has shown a slight performance increase. Despite the results of our experiments, the extended context is still considered beneficial in the pursuit of better performance.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectkontextcze
dc.subjectreceptivní polecze
dc.subjectkonvoluční neuronová síťcze
dc.subjectVision Transformercze
dc.subjectResNet 50cze
dc.subjectcontexteng
dc.subjectreceptive fieldeng
dc.subjectconvolutional neural networkeng
dc.subjectVision Transformereng
dc.subjectResNet 50eng
dc.titlePřidání kontextu do konvolučních sítícze
dc.titleAdding Context into Convolutional Neural Networkseng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeZimmermann Karel
theses.degree.disciplineZáklady umělé inteligence a počítačových vědcze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeOtevřená informatikacze


Files in this item





This item appears in the following Collection(s)

Show simple item record