Zobrazit minimální záznam

Configurable web scraper for online news



dc.contributor.advisorŠmolík Jiří
dc.contributor.authorMartin Thern
dc.date.accessioned2024-06-18T14:24:10Z
dc.date.available2024-06-18T14:24:10Z
dc.date.issued2024-06-08
dc.identifierKOS-1243582306605
dc.identifier.urihttp://hdl.handle.net/10467/115293
dc.description.abstractDiplomová práca sa zaoberá návrhom a implementáciou konfigurovateľného webového scrapera pre extrahovanie dát zo spravodajských portálov s využitím RSS kanálov a používateľom nastavenými pravidlami extrakcie. Ovládanie scrapera bude možné cez webovú aplikáciu. Úvodná časť mojej diplomovej práce sa zaoberá analýzou spravodajských portálov a ich variantami publikácie dát. Súčasne sa zaoberá obecným priblížením fungovania web scrapingu. Druhá časť práce sa zaoberá analýzou existujúcich riešení, ktoré ponúkajú web scraping ako SaaS službu. Zároveň sú analyzované aj programovacie jazyky a ich rozšírenia, ktoré sa na web scraping využívajú. Tretia časť práce sa zaoberá vytvorením funkčných a nefunkčných požiadaviek podľa vyhodnotenia z analýzy, súčasne návrhu používateľského rozhrania. Štvrtá časť diplomovej práce sa zaoberá implementáciou funkčných požiadaviek a následného testovania webovej aplikácie. Webová aplikácia je implementovaná pomocou Node.js, frameworku React a databázy MongoDB.cze
dc.description.abstractThe master thesis deals with designing and implementing a configurable web scraper for extracting data from news portals using RSS channels and user-set extraction rules. Control of the scraper will be possible through a web application. The first part of my master's thesis deals with analyzing news portals and their variants of publishing data. Simultaneously, it deals with the general approach to web scraping. The second part of the work deals with the analysis of the existing solutions, which offer web scraping as a SaaS service. At the same time also analyzes the programming languages and their expansions, which are used for web scraping. The third part of the work deals with the creation of functional and non-functional requirements from the result of the analysis, simultaneously designing of user interface. The fourth part of the master thesis deals with the implementation of functional and non-functional requirements and the following testing of the web application. The web application is implemented in Node.js, the framework React and database MongoDB.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectWeb scrapercze
dc.subjectReactcze
dc.subjectNode.jscze
dc.subjectMongoDBcze
dc.subjectwebová aplikáciacze
dc.subjectextrahovanie dátcze
dc.subjectspravodajské portálycze
dc.subjectRSS kanálycze
dc.subjectWeb scrapereng
dc.subjectReacteng
dc.subjectNode.jseng
dc.subjectMongoDBeng
dc.subjectweb applicationeng
dc.subjectdata extractioneng
dc.subjectNews portalseng
dc.subjectRSS feedseng
dc.titleKonfigurovatelný web scraper internetového zpravodajstvícze
dc.titleConfigurable web scraper for online newseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeDojčinovski Milan
theses.degree.disciplineWebové inženýrstvícze
theses.degree.grantorkatedra softwarového inženýrstvícze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu


Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam