Využití konvolučních neuronových sítí při segmentaci obrazu
The Use of Convolutional Neural Networks for Image Segmentation
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Roman Fencl
Vedoucí práce
Horaisová Kateřina
Oponent práce
Nový Josef
Studijní program
Aplikace informatiky v přírodních vědáchInstituce přidělující hodnost
katedra softwarového inženýrstvíPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Má bakalářská práce se zabývá segmentací obrazu pomocí konvolučních neuronových sítí. Nejprve popisuji problematiku počítačového vidění a konvolučních neuronových sítí, jejich vrstvy a průběh trénování. Následně představuji různé modely používané pro segmentaci a popisuji možnost využití předtrénovaných enkodérů VGG16 a ResNet50. Zabývám se použitými nástroji, uvádím použité datasety a metriky a popisuji použité technologie a knihovny. Poslední kapitola obsahuje šest experimentů s cílem dosáhnout co nejlepších výsledků na Oxford Pet datasetu. Experimenty spočívaly v úpravě U-Net modelu, rozšíření datasetu, použití předtrénovaných enkodérů nebo použití YOLO modelu. Jako poslední jsem použil nejlepší dosaženou konfiguraci U-Net modelu na Pascal VOC dataset. My bachelor thesis deals with image segmentation using convolutional neural networks. First, I describe the issue of computer vision and convolutional neural networks, their layers and the training process. Subsequently, I present different models used for segmentation and describe the possibility of using pre-trained VGG16 and ResNet50 encoders. I deal with the tools used, list the datasets and metrics used and describe the technologies and libraries used. The last chapter contains six experiments with the aim of achieving the best possible results on the Oxford Pet dataset. The experiments consisted in modifying the U-Net model, expanding the dataset, using pre-trained encoders or using the YOLO model. Lastly, I used the best achieved configuration of the U-Net model on the Pascal VOC dataset.