Zobrazit minimální záznam

Tool for analysis of Czech news articles



dc.contributor.advisorKuchař Jaroslav
dc.contributor.authorFilipová Markéta
dc.date.accessioned2016-06-22T19:50:15Z
dc.date.available2016-06-22T19:50:15Z
dc.date.issued2016-05-14
dc.identifierKOS-587865186705
dc.identifier.urihttp://hdl.handle.net/10467/65115
dc.description.abstractV dnešní době, kdy množství informací na internetu stále narůstá, se automatické zpracování a třídění dat stalo velmi oblíbeným oborem iformačních technologií. Jednou z oblastí, kde se nachází množství různých, ale i podobných informací, je internetové zpravodajství. Cílem této práce bylo vytvořit nástroj pro analýzu článků z českých zpravodajských serverů, který by zjednodušil orientaci v obsahu, jenž je těmito servery každý den generován. Pro splnění tohoto cíle bylo vytvořeno několik Node.js modulů, kde se každý z nich zabývá určitou částí v procesu získání zajímavých dat. První z nich je crawler, díky kterému je možné stáhnout články k analýze ze zpravodajských webů. V druhé části je ze stažených HTML stránek extrahován relevantní obsah článků a jejich další atributy. Třetí částí je pak textová analýza, kde byly vytvořeny moduly pro extrakci pojmenovaných entit a pro analýzu sentimentu českého textu. V závěru práce pak byly vytvořeny dva CLI programy, kterými je možné pohodlně stáhnout a analyzovat články, jejichž výstupem jsou atributy článku, jeho obsah, sentiment a seznam entit a jejich výskytů v textu. Tyto články pak byly nahrány do databáze Apache Solr, pro kterou bylo vytvořeno několik dotazů a provedeny experimenty.cze
dc.description.abstractNowadays, when the amount of information on the internet continues to grow, automatic processing and analysis of data has become a very popular specialisation in the field of the information technologies. Online news service is one of the domains in which a significant amount of diverse as well as similar information exists. The goal of this thesis was to create a tool for analysis of Czech news articles which would simplify orientation in the data that is generated by these servers every day. To accomplish this goal a several Node.js modules have been created, each of which deals with a specific part of the process of obtaining interesting data. The first one is a crawler which allows downloading articles for analysis from news servers. In the second part, relevant content of articles and their other attributes are extracted from downloaded HTML pages. The third part is a text analysis for which modules for extraction of named entities and for sentiment analysis of Czech texts have been created. Finally, two CLI programs have been created, which allow easy download and analysis of articles, and the output of which are attributes of the article, its content, sentiment and a list of entities and its occurrences in the text. These articles have then been imported to the database Apache Solr for which several queries have been created and a number of experiments have been performed.eng
dc.language.isoCZE
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfeng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfcze
dc.subjectzpravodajské servery, čeština, web mining, crawler, extrakce obsahu, text miningcze
dc.subjectnews servers, Czech, web mining, crawler, content extraction, text miningeng
dc.titleNástroj pro analýzu článků z českých zpravodajských serverůcze
dc.titleTool for analysis of Czech news articleseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.date.accepted2016-06-13
dc.contributor.refereeVitvar Tomáš
theses.degree.disciplineWebové a softwarové inženýrstvícze
theses.degree.grantor18102cze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam