Získávání kauzálních znalostí z textových dat

Jennifer Za Nzambi

Discovery of causal relationships from textual data

dc.contributor.advisor	Mikolov Tomáš
dc.contributor.author	Jennifer Za Nzambi
dc.date.accessioned	2024-01-24T23:51:53Z
dc.date.available	2024-01-24T23:51:53Z
dc.date.issued	2024-01-24
dc.identifier	KOS-1200020706305
dc.identifier.uri	http://hdl.handle.net/10467/113325
dc.description.abstract	Sociální sítě představují nedotčenou zlatou žílu, skrývající zásobu veřejných názorů, postojů a emocí. Pokud bychom ji dokázali plně využít, mohlo by to zásadně změnit způsob, jakým jsou veřejné názory shromažďovány a interpretovány. Tato práce představuje novou metodu pro extrakci názorů na ekonomické ukazatele z textů na sociálních sítích pomocí trénování jazykových modelů, konkrétně GPT- 2 small, na komentářích z Redditu. Díky trénování mohou jazykové modely nabýt schopnost chápat a napodobovat ekonomické diskurzy na sociálních sítích. Přínos této práce je trojí. Zaprvé, představuje datasety, pomocí kterých může model efektivně získat poznatky specifické pro danou oblast a ekonomické znalosti na pokročilé úrovni. Zadruhé, práce prezentuje nové metriky založené na porovnání perplexity protichůdných tvrzení, které ověřují chápání ekonomických textů modelem a tím měří jeho naučení informací z datasetů na kterých byl trénován. Nakonec aplikuje dané modely na datasety z Redditu a prezentuje výsledky, které naznačují, že zvolený přístup může konkurovat a v některých případech dokonce i předčit predikce založené na průzkumech veřejného mínění a předpovědích vývoje ekonomických ukazatelů odborníky. Nad rámec této studie by metody a zjištění specifikované v této práci mohly razit cestu pro další aplikace trénování jazykových modelů jako doplněk nebo možnou alternativu k tradičním metodám založeným na průzkumech.	cze
dc.description.abstract	Social media platforms are akin to an untapped gold vein harbouring a reservoir of public opinions, attitudes and sentiments which, if realised, could revolutionise how public opinions are gathered and interpreted. This thesis introduces a novel method for extracting opinions about economic indicators from social media texts by fine-tuning language models, specifically of the GPT-2 small, on Reddit comments. Through fine-tuning, language models can acquire the ability to understand and mimic the economic discourses within posts published on social media. This thesis’ value is threefold. First, it presents carefully curated datasets through which the model can effectively learn domain-specificities and economic understanding on an advanced level. Second, it devises metrics based on perplexity comparisons of opposing statements which validate the model’s comprehension of economic texts, thereby measuring the model’s alignment with datasets it was fine-tuned on, and finally applies said models to Reddit datasets garnering results indicating that the model-based approach can rival, and in some cases outperform, survey-based predictions and professional forecasts in predicting trends of economic indicators. Beyond the scope of this study, the methods and findings presented could pave the way for further applications of language model fine-tuning as a complement, or potential alternative, to traditional survey-based methods.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	NLP	cze
dc.subject	Jazykové modely	cze
dc.subject	GPT-2	cze
dc.subject	Sociální sítě	cze
dc.subject	Veřejné mínění	cze
dc.subject	Transformery	cze
dc.subject	Ladění	cze
dc.subject	Prognóza	cze
dc.subject	Ekonomie	cze
dc.subject	NLP	eng
dc.subject	Language Models	eng
dc.subject	GPT-2	eng
dc.subject	Reddit	eng
dc.subject	Social Media	eng
dc.subject	Public Opinion	eng
dc.subject	Transformers	eng
dc.subject	Fine-tuning	eng
dc.subject	Survey	eng
dc.subject	Forecasting	eng
dc.subject	Economics	eng
dc.title	Získávání kauzálních znalostí z textových dat	cze
dc.title	Discovery of causal relationships from textual data	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Šír Gustav
theses.degree.discipline	Umělá inteligence	cze
theses.degree.grantor	katedra počítačů	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2023-Za Nzambi-Jennifer- ...
Velikost:: 2.414Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2023-posudek-Sir_Gustav.pdf
Velikost:: 249.0Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2023-posudek-Mikolov_Tom ...
Velikost:: 132.1Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13136 [911]

Zobrazit minimální záznam