Automatická extrakce profilů osob z univerzitní domény pomocí metod web scrapingu a NLP
Automated extraction of personal profiles from a university domain using web scraping and NLP methods
Typ dokumentu
diplomová prácemaster thesis
Autor
Tomáš Lenoch
Vedoucí práce
Kuznetsov Stanislav
Oponent práce
Dojčinovski Milan
Studijní obor
Znalostní inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Táto práca sa zaoberá vývojom softvérovej aplikácie, ktorá dokáže automaticky získavať personálne profily zamestnancov z webových stránok univerzít pomocou techník web scrapingu a spracovania prirodzeného jazyka (NLP). Získané profily obsahujú príslušnosť zamestnancov k organizačným jednotkám v rámci univerzity. Okrem toho je v aplikácii k dispozícii užívateľsky prívetivé grafické rozhranie na overovanie a úpravu získaných profilov. Dizajn aplikácie založený na komponentoch umožňuje do budúcnosti úpravy na spracovanie špecifickejšieho okruhu univerzít. Výkonnosť aplikácie sa hodnotí na množine dát ručne extrahovaných z univerzitných webových stránok. Výsledky hodnotenia naznačujú, že aplikácia dokáže vykonávať požadované úlohy. V budúcnosti je ale potrebné ďalšie testovanie vzhľadom na obmedzenú veľkosť referenčnej množiny. This thesis deals with the development of a software application that can automatically extract personal profiles of employees from university websites, using web scraping and natural language processing (NLP) techniques. The extracted profiles include affiliations of the employees towards organizational units within the university. In addition, a user-friendly graphical interface is provided in the application to verify and modify the extracted profiles. The component-based design of the application allows for future adjustments to handle a more specific set of universities. The performance of the application is evaluated on the set of manually scraped university websites. The evaluation results suggest that the application can perform the required tasks. Further testing is required in the future due to the limited size of the reference set.
Kolekce
- Diplomové práce - 18105 [164]