Framework pro extrakci obsahu článků z Wikipedie

Oleksandr Husiev

Framework for Extraction of Wikipedia Articles Content

dc.contributor.advisor	Dojčinovski Milan
dc.contributor.author	Oleksandr Husiev
dc.date.accessioned	2021-12-02T23:51:16Z
dc.date.available	2021-12-02T23:51:16Z
dc.date.issued	2021-12-02
dc.identifier	KOS-1088201569205
dc.identifier.uri	http://hdl.handle.net/10467/98707
dc.description.abstract	Tato diplomová práce se zabývá extrakcí obsahu Wikipedie pro DBpedia - crowd-sourced projekt. Hlavním cílem této práce bylo vyvinout rámec pro extrakci obsahu, struktury a anotací článků z Wikipedie. Výsledkem je framework, který zpracovává velké skládky XML na Wikipedii v několika populárních jazycích s možností dynamicky přidávat nové jazyky a vytváří čistý textový výstup, odkazy a strukturu stránky ve formátu N-Triples.	cze
dc.description.abstract	This thesis describes the development process of the extraction of Wikipedia articles content for a DBpedia, a crowd-sourced community effort. The main goal of this thesis was to develop a framework for extraction of Wikipedia articles content, structure, and annotations. The result is a framework that processes large Wikipedia XML dumps in several popular languages, with the possibility to dynamically add new languages, and produces clean text output, links, and page structure in N-Triples format.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	NIF	cze
dc.subject	RDF	cze
dc.subject	propojená data	cze
dc.subject	web škrábání	cze
dc.subject	NIF	eng
dc.subject	RDF	eng
dc.subject	linked data	eng
dc.subject	web scraping	eng
dc.subject	knowledge graph	eng
dc.title	Framework pro extrakci obsahu článků z Wikipedie	cze
dc.title	Framework for Extraction of Wikipedia Articles Content	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Smítková Janků Ladislava
theses.degree.discipline	Webové a softwarové inženýrství	cze
theses.degree.grantor	katedra softwarového inženýrství	cze
theses.degree.programme	Informatika 2010	cze

Soubory tohoto záznamu

Název:: F8-DP-2021-posudek-Smitkova_Ja ...
Velikost:: 52.24Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F8-DP-2020-Husiev-Oleksandr-th ...
Velikost:: 802.4Kb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F8-DP-2021-posudek-Dojcinovski ...
Velikost:: 53.75Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 18102 [1005]

Zobrazit minimální záznam