ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Cybernetics
  • Bachelor Theses - 13133
  • View Item
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Cybernetics
  • Bachelor Theses - 13133
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Kategorizace uživatelů na základě historie stahovaných webových dokumentů

The Users Categorization Based on the Browsing History

Type of document
bakalářská práce
bachelor thesis
Author
Jenčík Dušan
Supervisor
Šedivý Jan
Opponent
Lisý Viliam
Field of study
Informatika a počítačové vědy
Study program
Otevřená informatika
Institutions assigning rank
katedra kybernetiky



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item record
Abstract
Cílem této práce je nalezení metod a postupů vedoucích ke kategorizaci uživatelů dle historie jejich záznamů z procházení internetu. Práce využívá analytické a statistické metody, kterými se snaží nalézt kategorie webových stránek charakteristických pro určitou skupinu uživatelů. Bylo zjištěno, že shlukovací algoritmy nejsou dostatečně popisné pro nalezení požadovaných kategorií, a tak bylo využito topic-model algoritmu pLSA. Díky tomuto algoritmu byla nalezena témata tvořená distribucemi webových stránek a zároveň každý uživatel byl popsán distribucí nalezených témat. Popis témat byl doplněn o kategorie z DMOZ databáze a následně o nejvýznamnější slova, která se vyskytují na stránkách charakterizujících dané téma. Pro tuto práci byla poskytnuta zanonymizovaná data nejmenovanou antivirovou společností.
 
The aim of this thesis is to find methods and procedures which are leading to categorization of users with respect to history of their records from internet browsing. The work uses analytical and statistical methods, by which it tries to find some categories of websites, which are characteristic for a specific group of users. It has been found that clustering algorithms are not sufficiently descriptive for finding required categories, and thus it has been used topic-model algorithm named pLSA. The topics have been found thanks to this algorithm. The topics are formed by distribution of websites and every user is described by distribution of the found topics. The description of topics has been supplemented with categories from DMOZ database and later with the most important words, which are appeared on web pages describing the topic. Anonymized data was provided by unnamed antivirus company.
 
URI
http://hdl.handle.net/10467/62035
View/Open
PRILOHA (1.959Mb)
PLNY_TEXT (690.2Kb)
POSUDEK (432.1Kb)
POSUDEK (66.99Kb)
Collections
  • Bakalářské práce - 13133 [851]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV