Kategorizace produktů pomocí strojového učení

Roman Dušek

Product categorization using machine learning

Typ dokumentu

diplomová práce
master thesis

Autor

Roman Dušek

Vedoucí práce

Cejnek Matouš

Oponent práce

Oswald Cyril

Studijní obor

Automatizace a průmyslová informatika

Studijní program

Automatizační a přístrojová technika

Instituce přidělující hodnost

ústav přístrojové a řídící techniky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Špatně zařazené produktu nejen ovlivňují zákaznickou zkušenost na stránkách webových obchodů, ale také vytváří problémy při vytváření systémů pro doporučování a hledání. V této práci otestuji několik různých modelů založených na metodách strojového učení na získané informaci z textu a obrázků produktů. Modely jsem zvolil jak z řad standardních algoritmů strojového učení, tak i metody založené na hlubokém strojovém učení. Reprezentace textu a obrázků je získána za pomocí velkých modelů předtrénovaných, které jsou volně dostupné. Přístupy založené na kombinaci modalit byli také otestovány pro účely kategorizace. Experimenty provádím na reálných datech jednoho z největších webových obchodů v Česku.

Wrong categorization of products not only affects the customer experience on e-commerce websites but also creates problems for effective use of search and recommendation systems. In this thesis, I am going to test machine learning models based on extracted text or image representations. Models are based on ordinary machine learning algorithms, but also on deep learning architectures. Text and image representations were extracted using large pretrained models. Multimodal models were also tested for the categorization task. Experiments were done on real data of one of the Czech largest e-commerce website.