Platforma pro sémantické crawlování webu

Podlaha Jakub

Platform for Semantic Crawling of the Web

Type of document

diplomová práce
master thesis

Author

Podlaha Jakub

Supervisor

Křemen Petr

Opponent

Aubrecht Petr

Field of study

Umělá inteligence

Study program

Otevřená informatika

Institutions assigning rank

katedra počítačů

Defended

2015-01-20

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf

Metadata

Show full item record

Abstract

Tato diplomová práce zkoumá téma semantické extrakce dat. Hlavním cílem této práce je navrhnout nástroj pro zjednodušení procesu anotování a sbírání dat z webových stránek. Nejdříve pro specifikaci řešeného problému a motivaci, definujeme několik případů užití z reálného života týkajících se semantické extrakce dat. Pro každý z těchto případů popíšeme v čem tkví jeho náročnost. Ze všech případů pak odvodíme souhrný vzor a určíme požadovaný postup extrakce. Následně stručně popíšeme základní technologie používané při práce se semantickými daty. Prozkoumáme existující nástroje a platformy pro automatizovanou extrakci dat založené na popsaných technologiích. Zaměříme se zejména na ty, teré odpovídají požadovanému postupu extrakce. Vybereme nejnadějnější nástroje a provedeme detailní analýzu zvláštních technik použitých při jejich implementaci. Pro každý nástroj popíšeme hlavní část našeho zájmu, spolu s přínosy a nedostatky, které přináší. Během této analýzy se obzvláště zaměříme na způsob, jakým uživatel zadává pravidla pro extakci dat a jakými nastavuje jeji proces. Dále prozkoumáme knihovny a platformy, semantické i nesemantické, které by mohly sloužit jako základ pro implementaci prototypu navrhovaného designu. Na základě zkoumaných postupů prozkoumáme možnosti jejich kombinace a jejich případných zdokonalení. Konkrétně definujeme formát scénáře pro extraktor semantických dat a navrhneme nástroje pro tvorbu scénářů a pro extrakci dat. Abychom návrh podpořili, vytvoříme a popíšeme prototyp obou nástrojů.

This diploma thesis investigates the topic of semantic data extraction. Its main goal is to design a tool that would simplify the process of annotation and scraping of data from pages on the web. First, we define several real life use cases of data extraction task as a problem specification and motivation. For each use case we explain what is its major challenge. From all the use cases, we derive common pattern based on which we define the desired workflow of the data extraction. Then we briefly describe underlying technologies used for handling the semantic data. We investigate existing tools and platforms for automated data extraction based on these technologies. We focus on the tools which conform to the defined workflow. We then choose the most promising tools and deeply analyse specific techniques used in their implementation. For each tool we describe in detail the main part of our interest, its benefits and drawbacks. During this analysis we pay special attention to the form in which user defines rules for data extraction and configures the extraction process. Additionally, we examine semantic and non-semantic libraries and platforms that might serve as a base technology for implementation of a prototype of the proposed design. Based on the analysed techniques we research options for best combination and improvement of each of them. Namely, we define format of scenario for semantic data extractor and design tools for scenario creation and for performing the data extraction. To support the design we implement and describe prototypes of both tools.