Comic2vec: Vector representation of comics
Comic2vec: vektorová reprezentace komiksů
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
V dnešní dobe se komiksum dostává velké popularity. Jedním z faktoru toho nárustu je fakt, že vycházejí filmy založené na komiksových svetech, kterým se dostává velké popularity. Dalším faktorem je zájem vedcu o komiksy a jejich následné studování. Tato práce se snaží popsat komiksy tak, aby i komiksový zacátecník pochopil, co to presne komiksy jsou. Zkoumá ruzné možnosti vnorení komiksu do vektorového prostoru. Vysvetluje ruzné metody a algoritmy, které jsou použity pri tvorbe techto vnorení a jejich následného vyhodnocení presnosti. Jsou vytvorena dve vnorení, jedno pro styl a druhé pro text. Pro vyhodnocení presnosti je použita speciální metrika. Vnorení stylu je vytvoreno pomocí Inception V3, což je konvolucní neuronová sít (CNN), která byla pretrénovaná pomocí TPU. Toto vnorení dosahuje presnosti 98%. Vnorení textu je vytvorené pomocí Doc2Vec a dosahuje presnosti více jak 70%. Pri tvorbe této práce byly vytvoreny dva datasety, jeden obsahující panely komiksu a druhý texty. Bohužel dataset panelu komiksu nemuže být zverejnen.
The world of comics is receiving a lot of attention lately. Not only are thematic movies based on comics being released almost daily but on the top of that scientists are starting to study comics as a research field now as well. This paper tries to describe comics so the reader can understand them. It explores the possibilities of embedding comics into vector space. It explains various methods and algorithms that will be used in the process of creating and evaluating the accuracy of the embeddings. There are two embeddings created: one for the style and the other one for the text. A special metric is used to measure the accuracy of these embeddings. The style embedding is created using Inception V3 which is a Convolutional neural network (CNN) re-trained on TPU and achieves accuracy of 98%. The text embedding is created using a method named Doc2Vec and achieves accuracy of over 83%. Two datasets are created in the process of making this work, unfortunately, the one used for style embedding cannot be made public.
The world of comics is receiving a lot of attention lately. Not only are thematic movies based on comics being released almost daily but on the top of that scientists are starting to study comics as a research field now as well. This paper tries to describe comics so the reader can understand them. It explores the possibilities of embedding comics into vector space. It explains various methods and algorithms that will be used in the process of creating and evaluating the accuracy of the embeddings. There are two embeddings created: one for the style and the other one for the text. A special metric is used to measure the accuracy of these embeddings. The style embedding is created using Inception V3 which is a Convolutional neural network (CNN) re-trained on TPU and achieves accuracy of 98%. The text embedding is created using a method named Doc2Vec and achieves accuracy of over 83%. Two datasets are created in the process of making this work, unfortunately, the one used for style embedding cannot be made public.
Description
Keywords
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.