Platforma pro sémantické crawlování webu

Podlaha Jakub

Platform for Semantic Crawling of the Web

dc.contributor.advisor	Křemen Petr
dc.contributor.author	Podlaha Jakub
dc.date.accessioned	2015-03-16T15:34:40Z
dc.date.available	2015-03-16T15:34:40Z
dc.identifier	KOS-528277881305
dc.identifier.uri	http://hdl.handle.net/10467/61192
dc.description.abstract	Tato diplomová práce zkoumá téma semantické extrakce dat. Hlavním cílem této práce je navrhnout nástroj pro zjednodušení procesu anotování a sbírání dat z webových stránek. Nejdříve pro specifikaci řešeného problému a motivaci, definujeme několik případů užití z reálného života týkajících se semantické extrakce dat. Pro každý z těchto případů popíšeme v čem tkví jeho náročnost. Ze všech případů pak odvodíme souhrný vzor a určíme požadovaný postup extrakce. Následně stručně popíšeme základní technologie používané při práce se semantickými daty. Prozkoumáme existující nástroje a platformy pro automatizovanou extrakci dat založené na popsaných technologiích. Zaměříme se zejména na ty, teré odpovídají požadovanému postupu extrakce. Vybereme nejnadějnější nástroje a provedeme detailní analýzu zvláštních technik použitých při jejich implementaci. Pro každý nástroj popíšeme hlavní část našeho zájmu, spolu s přínosy a nedostatky, které přináší. Během této analýzy se obzvláště zaměříme na způsob, jakým uživatel zadává pravidla pro extakci dat a jakými nastavuje jeji proces. Dále prozkoumáme knihovny a platformy, semantické i nesemantické, které by mohly sloužit jako základ pro implementaci prototypu navrhovaného designu. Na základě zkoumaných postupů prozkoumáme možnosti jejich kombinace a jejich případných zdokonalení. Konkrétně definujeme formát scénáře pro extraktor semantických dat a navrhneme nástroje pro tvorbu scénářů a pro extrakci dat. Abychom návrh podpořili, vytvoříme a popíšeme prototyp obou nástrojů.	cze
dc.description.abstract	This diploma thesis investigates the topic of semantic data extraction. Its main goal is to design a tool that would simplify the process of annotation and scraping of data from pages on the web. First, we define several real life use cases of data extraction task as a problem specification and motivation. For each use case we explain what is its major challenge. From all the use cases, we derive common pattern based on which we define the desired workflow of the data extraction. Then we briefly describe underlying technologies used for handling the semantic data. We investigate existing tools and platforms for automated data extraction based on these technologies. We focus on the tools which conform to the defined workflow. We then choose the most promising tools and deeply analyse specific techniques used in their implementation. For each tool we describe in detail the main part of our interest, its benefits and drawbacks. During this analysis we pay special attention to the form in which user defines rules for data extraction and configures the extraction process. Additionally, we examine semantic and non-semantic libraries and platforms that might serve as a base technology for implementation of a prototype of the proposed design. Based on the analysed techniques we research options for best combination and improvement of each of them. Namely, we define format of scenario for semantic data extractor and design tools for scenario creation and for performing the data extraction. To support the design we implement and describe prototypes of both tools.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	cze
dc.subject	semantický web, linked data, crawler,	cze
dc.title	Platforma pro sémantické crawlování webu	cze
dc.title	Platform for Semantic Crawling of the Web	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.date.accepted	2015-01-20
dc.contributor.referee	Aubrecht Petr
theses.degree.discipline	Umělá inteligence	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2015-Podlaha-Jakub-diplo ...
Velikost:: 7.086Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2015-posudek-Kremen_Petr.pdf
Velikost:: 55.94Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2015-posudek-Aubrecht_Pe ...
Velikost:: 37.67Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [892]

Zobrazit minimální záznam