Adding Context into Convolutional Neural Networks

Přidání kontextu do konvolučních sítí

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Nejnovější články ukazují, že neuronové sítě mohou těžit z využití širšího receptivního pole (kontextu) již na nižších vrstvách. Naopak běžně používaná architektura ResNet má pouze lokální kontext a její receptivní pole se zvětšuje pomalu. Trvá několik vrstev, než se její kontext rozšíří. Navrhujeme několik metod, jak přidat kontext do architektury ResNet. Konkrétně jsme zkoušeli: (i) vygenerovat náhodný kontext, (ii) rozšířit náhodný kontext o relativní poziční kódování a (iii) naimplementovat self-attention s náhodným kontextem a pozičním kódováním. Prozkoumali jsme také možnosti použití dilatované konvoluce a její modifikaci s náhodným tvarem konvolučního jádra. Navržená rozšíření testujeme na úloze klasifikace do deseti tříd. Měříme, jak neuronová síť využívá kontext pomocí receptivního pole a efektivního receptivního pole. Naše metody porovnáváme s architekturami jako je HRNet, Vision Transformer a ConvNext. Výsledky ukazují, že síť ResNet 50 využívá rozšířeného kontextu již na nižších vrstvách, nárůst výkonu však nebyl zaznamenán. Použití dilatované konvoluce s náhodným tvarem jádra konvoluce přineslo malé zlepšení ve výkonu. I přes výsledky našich experimentů je rozšířený kontext považován za přínosný ve snaze zlepšit přesnost neuronových sítí.

Recent papers show that neural networks can benefit from using a wider receptive field (context) already in lower layers. On the contrary, a commonly used ResNet has a local context, and the receptive field grows slowly. It takes multiple layers before the ResNet reaches a broader context. We propose several methods how to add context into ResNet architecture. In particular, we experimented with: (i) generating random context, (ii) enhancing random context with the relative positional encoding, and (iii) implementing self-attention with the random context and relative positional encoding. Alternatively, we tried using dilated convolution and its alteration with a randomised shape of a convolutional kernel. We test the proposed ResNet extensions on the task of classification into ten classes. We measure how well the networks utilise the context using the receptive field and the effective receptive field. Our methods are compared with HRNet, Vision Transformer and ConvNext architectures. Results show that the utilisation of the context was increased already in the lower layers of the ResNet 50 network. However, the performance increase was not registered. Only using randomised dilated convolution has shown a slight performance increase. Despite the results of our experiments, the extended context is still considered beneficial in the pursuit of better performance.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By