The Users Categorization Based on the Browsing History

Kategorizace uživatelů na základě historie stahovaných webových dokumentů

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

Research Projects

Organizational Units

Journal Issue

Abstract

Cílem této práce je nalezení metod a postupů vedoucích ke kategorizaci uživatelů dle historie jejich záznamů z procházení internetu. Práce využívá analytické a statistické metody, kterými se snaží nalézt kategorie webových stránek charakteristických pro určitou skupinu uživatelů. Bylo zjištěno, že shlukovací algoritmy nejsou dostatečně popisné pro nalezení požadovaných kategorií, a tak bylo využito topic-model algoritmu pLSA. Díky tomuto algoritmu byla nalezena témata tvořená distribucemi webových stránek a zároveň každý uživatel byl popsán distribucí nalezených témat. Popis témat byl doplněn o kategorie z DMOZ databáze a následně o nejvýznamnější slova, která se vyskytují na stránkách charakterizujících dané téma. Pro tuto práci byla poskytnuta zanonymizovaná data nejmenovanou antivirovou společností.

The aim of this thesis is to find methods and procedures which are leading to categorization of users with respect to history of their records from internet browsing. The work uses analytical and statistical methods, by which it tries to find some categories of websites, which are characteristic for a specific group of users. It has been found that clustering algorithms are not sufficiently descriptive for finding required categories, and thus it has been used topic-model algorithm named pLSA. The topics have been found thanks to this algorithm. The topics are formed by distribution of websites and every user is described by distribution of the found topics. The description of topics has been supplemented with categories from DMOZ database and later with the most important words, which are appeared on web pages describing the topic. Anonymized data was provided by unnamed antivirus company.

Description

Citation

Underlying research data set URL

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Endorsement

Review

Supplemented By

Referenced By