Nástroj pro analýzu článků z českých zpravodajských serverů

Filipová Markéta

Tool for analysis of Czech news articles

dc.contributor.advisor	Kuchař Jaroslav
dc.contributor.author	Filipová Markéta
dc.date.accessioned	2016-06-22T19:50:15Z
dc.date.available	2016-06-22T19:50:15Z
dc.date.issued	2016-05-14
dc.identifier	KOS-587865186705
dc.identifier.uri	http://hdl.handle.net/10467/65115
dc.description.abstract	V dnešní době, kdy množství informací na internetu stále narůstá, se automatické zpracování a třídění dat stalo velmi oblíbeným oborem iformačních technologií. Jednou z oblastí, kde se nachází množství různých, ale i podobných informací, je internetové zpravodajství. Cílem této práce bylo vytvořit nástroj pro analýzu článků z českých zpravodajských serverů, který by zjednodušil orientaci v obsahu, jenž je těmito servery každý den generován. Pro splnění tohoto cíle bylo vytvořeno několik Node.js modulů, kde se každý z nich zabývá určitou částí v procesu získání zajímavých dat. První z nich je crawler, díky kterému je možné stáhnout články k analýze ze zpravodajských webů. V druhé části je ze stažených HTML stránek extrahován relevantní obsah článků a jejich další atributy. Třetí částí je pak textová analýza, kde byly vytvořeny moduly pro extrakci pojmenovaných entit a pro analýzu sentimentu českého textu. V závěru práce pak byly vytvořeny dva CLI programy, kterými je možné pohodlně stáhnout a analyzovat články, jejichž výstupem jsou atributy článku, jeho obsah, sentiment a seznam entit a jejich výskytů v textu. Tyto články pak byly nahrány do databáze Apache Solr, pro kterou bylo vytvořeno několik dotazů a provedeny experimenty.	cze
dc.description.abstract	Nowadays, when the amount of information on the internet continues to grow, automatic processing and analysis of data has become a very popular specialisation in the field of the information technologies. Online news service is one of the domains in which a significant amount of diverse as well as similar information exists. The goal of this thesis was to create a tool for analysis of Czech news articles which would simplify orientation in the data that is generated by these servers every day. To accomplish this goal a several Node.js modules have been created, each of which deals with a specific part of the process of obtaining interesting data. The first one is a crawler which allows downloading articles for analysis from news servers. In the second part, relevant content of articles and their other attributes are extracted from downloaded HTML pages. The third part is a text analysis for which modules for extraction of named entities and for sentiment analysis of Czech texts have been created. Finally, two CLI programs have been created, which allow easy download and analysis of articles, and the output of which are attributes of the article, its content, sentiment and a list of entities and its occurrences in the text. These articles have then been imported to the database Apache Solr for which several queries have been created and a number of experiments have been performed.	eng
dc.language.iso	CZE
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf	cze
dc.subject	zpravodajské servery, čeština, web mining, crawler, extrakce obsahu, text mining	cze
dc.subject	news servers, Czech, web mining, crawler, content extraction, text mining	eng
dc.title	Nástroj pro analýzu článků z českých zpravodajských serverů	cze
dc.title	Tool for analysis of Czech news articles	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.date.accepted	2016-06-13
dc.contributor.referee	Vitvar Tomáš
theses.degree.discipline	Webové a softwarové inženýrství	cze
theses.degree.grantor	18102	cze
theses.degree.programme	Informatika	cze

Soubory tohoto záznamu

Název:: F8-DP-2016-Filipova-Marketa-th ...
Velikost:: 4.045Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F8-DP-2016-posudek-Kuchar_Jaro ...
Velikost:: 111.6Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F8-DP-2016-posudek-Vitvar_Tomas.pdf
Velikost:: 109.5Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 18102 [1006]

Zobrazit minimální záznam