ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Computer Science and Engineering
  • Master Theses - 13136
  • View Item
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Computer Science and Engineering
  • Master Theses - 13136
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Získávání kauzálních znalostí z textových dat

Discovery of causal relationships from textual data

Type of document
diplomová práce
master thesis
Author
Jennifer Za Nzambi
Supervisor
Mikolov Tomáš
Opponent
Šír Gustav
Field of study
Umělá inteligence
Study program
Otevřená informatika
Institutions assigning rank
katedra počítačů



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Sociální sítě představují nedotčenou zlatou žílu, skrývající zásobu veřejných názorů, postojů a emocí. Pokud bychom ji dokázali plně využít, mohlo by to zásadně změnit způsob, jakým jsou veřejné názory shromažďovány a interpretovány. Tato práce představuje novou metodu pro extrakci názorů na ekonomické ukazatele z textů na sociálních sítích pomocí trénování jazykových modelů, konkrétně GPT- 2 small, na komentářích z Redditu. Díky trénování mohou jazykové modely nabýt schopnost chápat a napodobovat ekonomické diskurzy na sociálních sítích. Přínos této práce je trojí. Zaprvé, představuje datasety, pomocí kterých může model efektivně získat poznatky specifické pro danou oblast a ekonomické znalosti na pokročilé úrovni. Zadruhé, práce prezentuje nové metriky založené na porovnání perplexity protichůdných tvrzení, které ověřují chápání ekonomických textů modelem a tím měří jeho naučení informací z datasetů na kterých byl trénován. Nakonec aplikuje dané modely na datasety z Redditu a prezentuje výsledky, které naznačují, že zvolený přístup může konkurovat a v některých případech dokonce i předčit predikce založené na průzkumech veřejného mínění a předpovědích vývoje ekonomických ukazatelů odborníky. Nad rámec této studie by metody a zjištění specifikované v této práci mohly razit cestu pro další aplikace trénování jazykových modelů jako doplněk nebo možnou alternativu k tradičním metodám založeným na průzkumech.
 
Social media platforms are akin to an untapped gold vein harbouring a reservoir of public opinions, attitudes and sentiments which, if realised, could revolutionise how public opinions are gathered and interpreted. This thesis introduces a novel method for extracting opinions about economic indicators from social media texts by fine-tuning language models, specifically of the GPT-2 small, on Reddit comments. Through fine-tuning, language models can acquire the ability to understand and mimic the economic discourses within posts published on social media. This thesis’ value is threefold. First, it presents carefully curated datasets through which the model can effectively learn domain-specificities and economic understanding on an advanced level. Second, it devises metrics based on perplexity comparisons of opposing statements which validate the model’s comprehension of economic texts, thereby measuring the model’s alignment with datasets it was fine-tuned on, and finally applies said models to Reddit datasets garnering results indicating that the model-based approach can rival, and in some cases outperform, survey-based predictions and professional forecasts in predicting trends of economic indicators. Beyond the scope of this study, the methods and findings presented could pave the way for further applications of language model fine-tuning as a complement, or potential alternative, to traditional survey-based methods.
 
URI
http://hdl.handle.net/10467/113325
View/Open
PLNY_TEXT (2.414Mb)
POSUDEK (249.0Kb)
POSUDEK (132.1Kb)
Collections
  • Diplomové práce - 13136 [911]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV