Tvorba znalostní báze z webových stránek

Josef Štěřovský

Creating a Knowledge Base from Websites

Typ dokumentu

diplomová práce
master thesis

Autor

Josef Štěřovský

Vedoucí práce

Mařík Radek

Oponent práce

Drchal Jan

Studijní obor

Datové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Cílem této práce je posoudit proveditelnost automatizace extrakce znalostí z webových stránek, především při klasifikaci obchodníků do kategorií, které jsou předem definovány na základě průmyslových odvětví. Z webových stránek obchodníků působících v několika cílových zemích jsou sestaveny HTML datasety pomocí web scrapingu. Dále jsou pak z HTML datasetů extrahovány korpusy v angličtině, němčině a španělštině. Korpusy jsou poté transformovány do vektorových prostorů pomocí velkých předtrénovaných modelů i menších modelů trénovaných přímo na datasetech. Míra shody mezi skutečnými kategoriemi webových stránek a polohou dokumentů ve vektorových prostorech je vizualizována pomocí metod redukce dimenze. Kvalita vybraných datasetů a nástrojů pro extrakci textu je hodnocena také pomocí přesnosti klasifikátorů natrénových na vektorech anotovaných dokumentů. Rovněž jsou zkoumány alternativní strategie, konkrétně shlukování vektorů dokumentů, LLM prompting pomocí extrahovaných dokumentů a možnost využití již existujících otevřených znalostních bází. Je demonstrováno vytvoření a dotazování nové znalostní báze s využitím předpovědí modelů a použité hierarchie kategorií. Důležitým problémem je zajištění kvality korpusů, velmi přínosné je trénování nebo alespoň fine-tuning modelů pro tuto úlohu.

The aim of this thesis is to assess the feasibility of automating knowledge extraction from websites, primarily in classifying businesses into pre-defined categories based on industry sectors. Custom HTML datasets are compiled directly from the websites of businesses operating in several target countries by means of web scraping. Natural language corpora are extracted from the HTML datasets in the English, German and Spanish languages. The corpora are then embedded into vector spaces using large pre-trained models, as well as smaller models trained directly on the datasets. The degree of correspondence between ground-truth categories of the websites and the position of the documents in the vector spaces is visualized using dimension reduction methods. The quality of selected datasets and text extraction tools is also evaluated using the precision of classifiers trained on the labelled document vectors. Alternative strategies are explored as well, namely clustering of the document vectors, prompting LLMs with the extracted documents, and the possibility of using existing open knowledge bases. The creation and querying of a new knowledge base using the predictions of the models and the used category hierarchy is also demonstrated. Ensuring the quality of the corpora is a major issue, training or at least fine-tuning models for the task is very beneficial.