Evaluation of Readers’ Reactions to the Content of Media News
Hodnocení reakcí čtenářů na obsah mediálních zpráv
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Tato bakalářská práce poskytuje základní přehled o extrakci dat z webu (web scraping), zpracování přirozeného jazyka (NLP) a analýze sentimentu - se zaměřením na lexikony sentimentu. Byl vytvořen soubor dat s články a jejich komentářovými sekcemi ze stránek www.seznamzpravy.cz a www.idnes.cz. Z datasetu jsme vytvořili vektorové reprezentace pomocí programu Word2vec. Úpravou přístupu založeného na slovníku (dictionary-based approach) jsme zkoumali, zda by tyto vektory mohou být vhodné pro vytváření lexikonů sentimentu. Existující lexikon sentimentu byl použit k analýze sentimentu komentářů k článkům zaměřeným na různá témata. Nakonec jsme zkoumali, zda by reakce na tyto komentáře (lajky, dislajky) mohly být použity k měření sentimentu.
This bachelor's thesis gives a basic overview of web scraping, natural language processing, and sentiment analysis - focusing on sentiment lexicons. A dataset with articles and their comment sections from www.seznamzpravy.cz and www.idnes.cz was created. From the dataset, we created vector representations by Word2vec. By adjusting the dictionary-based approach, we explored if these vectors could be appropriate for creating sentiment lexicons. An existing sentiment lexicon was used to analyze the sentiment of the comments on articles focusing on different topics. Finally, we explored if reactions to these comments (likes, dislikes) could be used to measure sentiment.
This bachelor's thesis gives a basic overview of web scraping, natural language processing, and sentiment analysis - focusing on sentiment lexicons. A dataset with articles and their comment sections from www.seznamzpravy.cz and www.idnes.cz was created. From the dataset, we created vector representations by Word2vec. By adjusting the dictionary-based approach, we explored if these vectors could be appropriate for creating sentiment lexicons. An existing sentiment lexicon was used to analyze the sentiment of the comments on articles focusing on different topics. Finally, we explored if reactions to these comments (likes, dislikes) could be used to measure sentiment.
Description
Keywords
Python, Zpracování přirozeného jazyka, Analýza sentimentu, Extrakce dat z webu, Analýza novinových zpráv, Word2vec, Lexikon sentimentu, Učení bez učitele, Neuronové sítě, Python, Natural Language Processing, Sentiment Analysis, Web Scraping, News Analysis, Word2vec, Sentiment Lexicons, Unsupervised Learning, Neural Networks
Citation
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.