Shlukování a modelování chování uživatelů založené na datech z webového prohlížeče
User Behavior Clustering and Behavior Modeling Based on Clickstream Data
Typ dokumentu
diplomová prácemaster thesis
Autor
Žaloudek Jan
Vedoucí práce
Drchal Jan
Oponent práce
Šourek Gustav
Studijní obor
Umělá inteligenceStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
S rostoucím počtem uživatelů internetu je dobrá znalost chování jeho uživatelů nezbytná. V této práci zkoumáme různé způsoby, jak reprezentovat chování uživatelů internetu a možnosti, jak tuto znalost poté použít pro shlukování a pro částečně řízené učení. Navrhujeme dva různé způsoby transformace snímaných clickstreamů společně s dalšími událostmi z prohlížeče do vektorového prostoru. První metoda je založena na frekvencích událostí a druhá je založena na distribuovaném bag-of-words. Druhá představená metoda vykazuje slibné výsledky při úkolech shlukování a částečně řízeného učení. With growing online population having a good understanding of users' behavior on the internet is becoming very important. In this thesis, we explore different ways how to represent the behavior of online users and how to apply clustering and semi-supervised learning methods to this knowledge. We propose two different approaches how to transform captured clickstreams together with other events to the vector space. The first method is based on frequencies of the events and the second one is build on top of distributed bag-of-words. The second method shows promising results in clustering and semi-supervised tasks.
Kolekce
- Diplomové práce - 13136 [892]