Tvorba znalostní báze z webových stránek
Creating a Knowledge Base from Websites
Typ dokumentu
diplomová prácemaster thesis
Autor
Josef Štěřovský
Vedoucí práce
Mařík Radek
Oponent práce
Drchal Jan
Studijní obor
Datové vědyStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Cílem této práce je posoudit proveditelnost automatizace extrakce znalostí z webových stránek, především při klasifikaci obchodníků do kategorií, které jsou předem definovány na základě průmyslových odvětví. Z webových stránek obchodníků působících v několika cílových zemích jsou sestaveny HTML datasety pomocí web scrapingu. Dále jsou pak z HTML datasetů extrahovány korpusy v angličtině, němčině a španělštině. Korpusy jsou poté transformovány do vektorových prostorů pomocí velkých předtrénovaných modelů i menších modelů trénovaných přímo na datasetech. Míra shody mezi skutečnými kategoriemi webových stránek a polohou dokumentů ve vektorových prostorech je vizualizována pomocí metod redukce dimenze. Kvalita vybraných datasetů a nástrojů pro extrakci textu je hodnocena také pomocí přesnosti klasifikátorů natrénových na vektorech anotovaných dokumentů. Rovněž jsou zkoumány alternativní strategie, konkrétně shlukování vektorů dokumentů, LLM prompting pomocí extrahovaných dokumentů a možnost využití již existujících otevřených znalostních bází. Je demonstrováno vytvoření a dotazování nové znalostní báze s využitím předpovědí modelů a použité hierarchie kategorií. Důležitým problémem je zajištění kvality korpusů, velmi přínosné je trénování nebo alespoň fine-tuning modelů pro tuto úlohu. The aim of this thesis is to assess the feasibility of automating knowledge extraction from websites, primarily in classifying businesses into pre-defined categories based on industry sectors. Custom HTML datasets are compiled directly from the websites of businesses operating in several target countries by means of web scraping. Natural language corpora are extracted from the HTML datasets in the English, German and Spanish languages. The corpora are then embedded into vector spaces using large pre-trained models, as well as smaller models trained directly on the datasets. The degree of correspondence between ground-truth categories of the websites and the position of the documents in the vector spaces is visualized using dimension reduction methods. The quality of selected datasets and text extraction tools is also evaluated using the precision of classifiers trained on the labelled document vectors. Alternative strategies are explored as well, namely clustering of the document vectors, prompting LLMs with the extracted documents, and the possibility of using existing open knowledge bases. The creation and querying of a new knowledge base using the predictions of the models and the used category hierarchy is also demonstrated. Ensuring the quality of the corpora is a major issue, training or at least fine-tuning models for the task is very beneficial.
Kolekce
- Diplomové práce - 13136 [892]