Platforma pro sémantické crawlování webu
Platform for Semantic Crawling of the Web
Type of document
diplomová prácemaster thesis
Author
Podlaha Jakub
Supervisor
Křemen Petr
Opponent
Aubrecht Petr
Field of study
Umělá inteligenceStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůDefended
2015-01-20Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item recordAbstract
Tato diplomová práce zkoumá téma semantické extrakce dat. Hlavním cílem
této práce je navrhnout nástroj pro zjednodušení procesu anotování a sbírání
dat z webových stránek.
Nejdříve pro specifikaci řešeného problému a motivaci, definujeme několik
případů užití z reálného života týkajících se semantické extrakce dat. Pro
každý z těchto případů popíšeme v čem tkví jeho náročnost. Ze všech případů
pak odvodíme souhrný vzor a určíme požadovaný postup extrakce.
Následně stručně popíšeme základní technologie používané při práce se semantickými
daty. Prozkoumáme existující nástroje a platformy pro automatizovanou extrakci
dat založené na popsaných technologiích. Zaměříme se zejména na ty, teré
odpovídají požadovanému postupu extrakce.
Vybereme nejnadějnější nástroje a provedeme detailní analýzu zvláštních technik
použitých při jejich implementaci. Pro každý nástroj popíšeme hlavní část
našeho zájmu, spolu s přínosy a nedostatky, které přináší. Během této analýzy
se obzvláště zaměříme na způsob, jakým uživatel zadává pravidla pro extakci dat
a jakými nastavuje jeji proces. Dále prozkoumáme knihovny a platformy,
semantické i nesemantické, které by mohly sloužit jako základ pro implementaci
prototypu navrhovaného designu.
Na základě zkoumaných postupů prozkoumáme možnosti jejich kombinace a jejich
případných zdokonalení. Konkrétně definujeme formát scénáře pro extraktor
semantických dat a navrhneme nástroje pro tvorbu scénářů a pro extrakci dat.
Abychom návrh podpořili, vytvoříme a popíšeme prototyp obou nástrojů. This diploma thesis investigates the topic of semantic data extraction. Its
main goal is to design a tool that would simplify the process of annotation and
scraping of data from pages on the web.
First, we define several real life use cases of data extraction task as a
problem specification and motivation. For each use case we explain what is its
major challenge. From all the use cases, we derive common pattern based on
which we define the desired workflow of the data extraction.
Then we briefly describe underlying technologies used for handling the semantic
data. We investigate existing tools and platforms for automated data extraction
based on these technologies. We focus on the tools which conform to the defined
workflow.
We then choose the most promising tools and deeply analyse specific techniques
used in their implementation. For each tool we describe in detail the main part
of our interest, its benefits and drawbacks. During this analysis we pay special
attention to the form in which user defines rules for data extraction and
configures the extraction process. Additionally, we examine semantic and
non-semantic libraries and platforms that might serve as a base technology for
implementation of a prototype of the proposed design.
Based on the analysed techniques we research options for best combination and
improvement of each of them. Namely, we define format of scenario for semantic data
extractor and design tools for scenario creation and for performing
the data extraction. To support the design we implement and describe prototypes
of both tools.
Collections
- Diplomové práce - 13136 [892]