Show simple item record

The Users Categorization Based on the Browsing History

dc.contributor.advisorŠedivý Jan
dc.contributor.authorJenčík Dušan
dc.date.accessioned2015-05-28T11:59:39Z
dc.date.available2015-05-28T11:59:39Z
dc.identifierKOS-587865373705
dc.identifier.urihttp://hdl.handle.net/10467/62035
dc.description.abstractCílem této práce je nalezení metod a postupů vedoucích ke kategorizaci uživatelů dle historie jejich záznamů z procházení internetu. Práce využívá analytické a statistické metody, kterými se snaží nalézt kategorie webových stránek charakteristických pro určitou skupinu uživatelů. Bylo zjištěno, že shlukovací algoritmy nejsou dostatečně popisné pro nalezení požadovaných kategorií, a tak bylo využito topic-model algoritmu pLSA. Díky tomuto algoritmu byla nalezena témata tvořená distribucemi webových stránek a zároveň každý uživatel byl popsán distribucí nalezených témat. Popis témat byl doplněn o kategorie z DMOZ databáze a následně o nejvýznamnější slova, která se vyskytují na stránkách charakterizujících dané téma. Pro tuto práci byla poskytnuta zanonymizovaná data nejmenovanou antivirovou společností.cze
dc.description.abstractThe aim of this thesis is to find methods and procedures which are leading to categorization of users with respect to history of their records from internet browsing. The work uses analytical and statistical methods, by which it tries to find some categories of websites, which are characteristic for a specific group of users. It has been found that clustering algorithms are not sufficiently descriptive for finding required categories, and thus it has been used topic-model algorithm named pLSA. The topics have been found thanks to this algorithm. The topics are formed by distribution of websites and every user is described by distribution of the found topics. The description of topics has been supplemented with categories from DMOZ database and later with the most important words, which are appeared on web pages describing the topic. Anonymized data was provided by unnamed antivirus company.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf.eng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf.cze
dc.subjectkategorizace, shluková analýza, topic-model, pLSAcze
dc.titleKategorizace uživatelů na základě historie stahovaných webových dokumentůcze
dc.titleThe Users Categorization Based on the Browsing Historyeng
dc.typeBAKALÁŘSKÁ PRÁCEcze
dc.typebachelor's thesiseng
dc.contributor.refereeLisý Viliam
theses.degree.disciplineInformatika a počítačové vědycze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeOtevřená informatikacze


Files in this item





This item appears in the following Collection(s)

Show simple item record