Kategorizace produktů pomocí strojového učení
Product categorization using machine learning
Type of document
diplomová prácemaster thesis
Author
Roman Dušek
Supervisor
Cejnek Matouš
Opponent
Oswald Cyril
Field of study
Automatizace a průmyslová informatikaStudy program
Automatizační a přístrojová technikaInstitutions assigning rank
ústav přístrojové a řídící technikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Špatně zařazené produktu nejen ovlivňují zákaznickou zkušenost na stránkách webových obchodů, ale také vytváří problémy při vytváření systémů pro doporučování a hledání. V této práci otestuji několik různých modelů založených na metodách strojového učení na získané informaci z textu a obrázků produktů. Modely jsem zvolil jak z řad standardních algoritmů strojového učení, tak i metody založené na hlubokém strojovém učení. Reprezentace textu a obrázků je získána za pomocí velkých modelů předtrénovaných, které jsou volně dostupné. Přístupy založené na kombinaci modalit byli také otestovány pro účely kategorizace. Experimenty provádím na reálných datech jednoho z největších webových obchodů v Česku. Wrong categorization of products not only affects the customer experience on e-commerce websites but also creates problems for effective use of search and recommendation systems. In this thesis, I am going to test machine learning models based on extracted text or image representations. Models are based on ordinary machine learning algorithms, but also on deep learning architectures. Text and image representations were extracted using large pretrained models. Multimodal models were also tested for the categorization task. Experiments were done on real data of one of the Czech largest e-commerce website.
Collections
- Diplomové práce - 12110 [158]