Systém pro klasifikaci webových stránek
System for classification of web pages
Type of document
diplomová prácemaster thesis
Author
Kusý Stanislav
Supervisor
Kuchař Jaroslav
Opponent
Pavlíček Josef
Field of study
Webové a softwarové inženýrstvíStudy program
InformatikaInstitutions assigning rank
katedra softwarového inženýrstvíRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce se zabývá automatickou klasifikací webových stránek na základě vstupní URL adresy. Klasifikace webové stránky se skládá ze tří částí. První částí je stažení stránky na základě předložené URL adresy. Druhou částí je extrakce dat ze stažené stránky a jejich úprava pro klasifikaci. Poslední částí je samotná klasifikace pomocí strojového učení. Výsledkem práce je program, který na základě předložené URL adresy přiřadí stránce některé z předem daných kategorií. This thesis describes automatic web page classification. Classification is composed of three parts. The first part is downloading web page according to URL address. The second part is extract and transform data from web page. The third part is classification by machine learning algorithm. The result of this thesis is application that assigns some of the predefined categories to the web page.
Collections
- Diplomové práce - 18102 [1006]