Automatické učení ontologií ze semistrukturovaných dat
Automatic ontology learning from semi-structured data
Type of document
diplomová prácemaster thesis
Author
Masri Filip
Supervisor
Šedivý Jan
Opponent
Kordík Pavel
Field of study
Znalostní inženýrstvíStudy program
InformatikaInstitutions assigning rank
katedra teoretické informatikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Používání ontologií pro zachycení znalostí není žádnou novinkou. Důkazem tomu jsou veřejně dostupné ontologie, například z iniciativy Schema.org, které se hojně používají pro anotování webové obsahu. Ovšem, tyto ontologie bývají příliš obecné. Proto je potřeba systémů, které by generovaly ontologie zaměřené na specifičtější domény typu Mobilní telefony. Takové ontologie by poté mohly sloužit k rozšiřování obecnějších ontologií, jako je právě Schema.org. Zde by mohla pomoci tato práce, která se zameřuje na vytváření ontologií z <table> elementů obsažených ve webových stránkách. Implementovaný systém využívá metody pro klasifikaci typu tabulky, detekci hlavičky, porozumění vztahům mezi buňkami v tabulce a vytváření finální ontologie v RDF/OWL formátu. Výsledný přístup byl úspěšně aplikován na doménu mobilních telefonů. Jednotlivé ontologie byly vygenerovány z tabulek nalezených na stránkách \newline amazon.com, buymobiles.net, gadgets.ndtv.com a snapdeal.com. Kromě této domény se daný systém dá využít i na další domény jako např. kamery, firmy, auta, basketbalový hráči. Publicly available ontologies, such as Schema.org, tend to be quite general. Therefore, demand for systems automatically generating domain specific ontologies has arose. The generated ontologies could later extend the general ones, for example in Schema.org. This thesis focuses on building ontologies from <table> elements found in WEB pages. Methods were implemented for table type classification, header location, table understanding and creating final ontologies in RDF/OWL. The implemented system has been successfully applied to mobile phones domain. Ontologies were generated from tables found on amazon.com, buymobiles.net, gadgets.ndtv.com and snapdeal.com. Moreover, the system is applicable to other domains, such as cameras, companies, cars and basketball players.
Collections
- Diplomové práce - 18101 [208]