Zobrazit minimální záznam

Discovery of causal relationships from textual data



dc.contributor.advisorMikolov Tomáš
dc.contributor.authorJennifer Za Nzambi
dc.date.accessioned2024-01-24T23:51:53Z
dc.date.available2024-01-24T23:51:53Z
dc.date.issued2024-01-24
dc.identifierKOS-1200020706305
dc.identifier.urihttp://hdl.handle.net/10467/113325
dc.description.abstractSociální sítě představují nedotčenou zlatou žílu, skrývající zásobu veřejných názorů, postojů a emocí. Pokud bychom ji dokázali plně využít, mohlo by to zásadně změnit způsob, jakým jsou veřejné názory shromažďovány a interpretovány. Tato práce představuje novou metodu pro extrakci názorů na ekonomické ukazatele z textů na sociálních sítích pomocí trénování jazykových modelů, konkrétně GPT- 2 small, na komentářích z Redditu. Díky trénování mohou jazykové modely nabýt schopnost chápat a napodobovat ekonomické diskurzy na sociálních sítích. Přínos této práce je trojí. Zaprvé, představuje datasety, pomocí kterých může model efektivně získat poznatky specifické pro danou oblast a ekonomické znalosti na pokročilé úrovni. Zadruhé, práce prezentuje nové metriky založené na porovnání perplexity protichůdných tvrzení, které ověřují chápání ekonomických textů modelem a tím měří jeho naučení informací z datasetů na kterých byl trénován. Nakonec aplikuje dané modely na datasety z Redditu a prezentuje výsledky, které naznačují, že zvolený přístup může konkurovat a v některých případech dokonce i předčit predikce založené na průzkumech veřejného mínění a předpovědích vývoje ekonomických ukazatelů odborníky. Nad rámec této studie by metody a zjištění specifikované v této práci mohly razit cestu pro další aplikace trénování jazykových modelů jako doplněk nebo možnou alternativu k tradičním metodám založeným na průzkumech.cze
dc.description.abstractSocial media platforms are akin to an untapped gold vein harbouring a reservoir of public opinions, attitudes and sentiments which, if realised, could revolutionise how public opinions are gathered and interpreted. This thesis introduces a novel method for extracting opinions about economic indicators from social media texts by fine-tuning language models, specifically of the GPT-2 small, on Reddit comments. Through fine-tuning, language models can acquire the ability to understand and mimic the economic discourses within posts published on social media. This thesis’ value is threefold. First, it presents carefully curated datasets through which the model can effectively learn domain-specificities and economic understanding on an advanced level. Second, it devises metrics based on perplexity comparisons of opposing statements which validate the model’s comprehension of economic texts, thereby measuring the model’s alignment with datasets it was fine-tuned on, and finally applies said models to Reddit datasets garnering results indicating that the model-based approach can rival, and in some cases outperform, survey-based predictions and professional forecasts in predicting trends of economic indicators. Beyond the scope of this study, the methods and findings presented could pave the way for further applications of language model fine-tuning as a complement, or potential alternative, to traditional survey-based methods.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectNLPcze
dc.subjectJazykové modelycze
dc.subjectGPT-2cze
dc.subjectSociální sítěcze
dc.subjectVeřejné míněnícze
dc.subjectTransformerycze
dc.subjectLaděnícze
dc.subjectPrognózacze
dc.subjectEkonomiecze
dc.subjectNLPeng
dc.subjectLanguage Modelseng
dc.subjectGPT-2eng
dc.subjectRedditeng
dc.subjectSocial Mediaeng
dc.subjectPublic Opinioneng
dc.subjectTransformerseng
dc.subjectFine-tuningeng
dc.subjectSurveyeng
dc.subjectForecastingeng
dc.subjectEconomicseng
dc.titleZískávání kauzálních znalostí z textových datcze
dc.titleDiscovery of causal relationships from textual dataeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeŠír Gustav
theses.degree.disciplineUmělá inteligencecze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam