Shlukování a modelování chování uživatelů založené na datech z webového prohlížeče
User Behavior Clustering and Behavior Modeling Based on Clickstream Data
Type of document
diplomová prácemaster thesis
Author
Žaloudek Jan
Supervisor
Drchal Jan
Opponent
Šourek Gustav
Field of study
Umělá inteligenceStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
S rostoucím počtem uživatelů internetu je dobrá znalost chování jeho uživatelů nezbytná. V této práci zkoumáme různé způsoby, jak reprezentovat chování uživatelů internetu a možnosti, jak tuto znalost poté použít pro shlukování a pro částečně řízené učení. Navrhujeme dva různé způsoby transformace snímaných clickstreamů společně s dalšími událostmi z prohlížeče do vektorového prostoru. První metoda je založena na frekvencích událostí a druhá je založena na distribuovaném bag-of-words. Druhá představená metoda vykazuje slibné výsledky při úkolech shlukování a částečně řízeného učení. With growing online population having a good understanding of users' behavior on the internet is becoming very important. In this thesis, we explore different ways how to represent the behavior of online users and how to apply clustering and semi-supervised learning methods to this knowledge. We propose two different approaches how to transform captured clickstreams together with other events to the vector space. The first method is based on frequencies of the events and the second one is build on top of distributed bag-of-words. The second method shows promising results in clustering and semi-supervised tasks.
Collections
- Diplomové práce - 13136 [892]