Zobrazit minimální záznam

Platform for Semantic Crawling of the Web



dc.contributor.advisorKřemen Petr
dc.contributor.authorPodlaha Jakub
dc.date.accessioned2015-03-16T15:34:40Z
dc.date.available2015-03-16T15:34:40Z
dc.identifierKOS-528277881305
dc.identifier.urihttp://hdl.handle.net/10467/61192
dc.description.abstractTato diplomová práce zkoumá téma semantické extrakce dat. Hlavním cílem této práce je navrhnout nástroj pro zjednodušení procesu anotování a sbírání dat z webových stránek. Nejdříve pro specifikaci řešeného problému a motivaci, definujeme několik případů užití z reálného života týkajících se semantické extrakce dat. Pro každý z těchto případů popíšeme v čem tkví jeho náročnost. Ze všech případů pak odvodíme souhrný vzor a určíme požadovaný postup extrakce. Následně stručně popíšeme základní technologie používané při práce se semantickými daty. Prozkoumáme existující nástroje a platformy pro automatizovanou extrakci dat založené na popsaných technologiích. Zaměříme se zejména na ty, teré odpovídají požadovanému postupu extrakce. Vybereme nejnadějnější nástroje a provedeme detailní analýzu zvláštních technik použitých při jejich implementaci. Pro každý nástroj popíšeme hlavní část našeho zájmu, spolu s přínosy a nedostatky, které přináší. Během této analýzy se obzvláště zaměříme na způsob, jakým uživatel zadává pravidla pro extakci dat a jakými nastavuje jeji proces. Dále prozkoumáme knihovny a platformy, semantické i nesemantické, které by mohly sloužit jako základ pro implementaci prototypu navrhovaného designu. Na základě zkoumaných postupů prozkoumáme možnosti jejich kombinace a jejich případných zdokonalení. Konkrétně definujeme formát scénáře pro extraktor semantických dat a navrhneme nástroje pro tvorbu scénářů a pro extrakci dat. Abychom návrh podpořili, vytvoříme a popíšeme prototyp obou nástrojů.cze
dc.description.abstractThis diploma thesis investigates the topic of semantic data extraction. Its main goal is to design a tool that would simplify the process of annotation and scraping of data from pages on the web. First, we define several real life use cases of data extraction task as a problem specification and motivation. For each use case we explain what is its major challenge. From all the use cases, we derive common pattern based on which we define the desired workflow of the data extraction. Then we briefly describe underlying technologies used for handling the semantic data. We investigate existing tools and platforms for automated data extraction based on these technologies. We focus on the tools which conform to the defined workflow. We then choose the most promising tools and deeply analyse specific techniques used in their implementation. For each tool we describe in detail the main part of our interest, its benefits and drawbacks. During this analysis we pay special attention to the form in which user defines rules for data extraction and configures the extraction process. Additionally, we examine semantic and non-semantic libraries and platforms that might serve as a base technology for implementation of a prototype of the proposed design. Based on the analysed techniques we research options for best combination and improvement of each of them. Namely, we define format of scenario for semantic data extractor and design tools for scenario creation and for performing the data extraction. To support the design we implement and describe prototypes of both tools.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfeng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfcze
dc.subjectsemantický web, linked data, crawler,cze
dc.titlePlatforma pro sémantické crawlování webucze
dc.titlePlatform for Semantic Crawling of the Webeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.date.accepted2015-01-20
dc.contributor.refereeAubrecht Petr
theses.degree.disciplineUmělá inteligencecze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam