Aktivní učení pro klasifikaci textů

Marko Sahan

Active learning for text classification

dc.contributor.advisor	Šmídl Václav
dc.contributor.author	Marko Sahan
dc.date.accessioned	2021-10-25T12:51:17Z
dc.date.available	2021-10-25T12:51:17Z
dc.date.issued	2020-07-23
dc.identifier	KOS-922667791205
dc.identifier.uri	http://hdl.handle.net/10467/98281
dc.description.abstract	Modely strojového učení pro klasifikaci jsou založené na učení parametrů black box modelu, které popisují vztah mezi vzorky dat a jejích třídou. Proces sběru dat a jejích labelů pro účely trénování modelu může být komplikovaný a drahý. Množina dat je v mnoha případech větší než množina dostupných labelů, ale našim předpokladem je to, že nové labely můžou být obdržené prostřednictvím dotazu anotátorovi. Aktivní učení je proces výběru takových dat pro anotování, které povedou ke zvýšení diskriminability datasetu. Mnoho různých metod aktivniho učení v mnoha různých odvětvích bylo navrženo pro úlohy v nichž se používá učení s učitelem. V tomto projektu jsou popsané a ukázané různé metody aktivniho učení pro klasifikaci textů. Navíc jsou porovnávané už existující black box modely a jejích reprezentace neurčitosti. Modely aktivniho učení jsou formalizované pomocí teorie rozhodování, kde rozhodnutím je výběr dat bez labelů pro získávání anotace a neurčitost je v parametrech klasifikátorů. Entropie predikce klasifikátoru je vybrána jako očekávaná ztrátová funkce pro rozhodovací úlohu. Modely hlubokého učení dosáhli state-of-the-art výsledků v různých odvětvích zpracování přirozeného jazyka a také v klasifikaci textu. Kombinace aktivniho učení pro výběr dat a navržené reprezentace neurčitosti založené na ensemblech hlubokých neuronových sítí dosáhla výrazně lepších výsledků než strategie náhodného výběru nebo aktivní učení s alternativní reprezentací neurčitosti.	cze
dc.description.abstract	Machine learning models for classification are based on learning the parameters of the black box model, which describe the relationship between the data samples and its class. The process of collecting data and its labels for model training purposes can be complicated and expensive. The data set is in many cases larger than the set of available labels, but our assumption is that new labels can be obtained by querying the annotator. Active learning is the process of selecting such data for annotation, which will increase the discrimination of the dataset. Many different methods of active learning in many different industries have been designed for tasks in which teacher learning is used. In this project, various methods of active learning for the classification of texts are described and shown. In addition, existing black box models and their representations of uncertainty are compared. Active learning models are formalized using decision theory, where the decision is to select data without labels for obtaining annotations and the uncertainty is in the parameters of the classifiers. The entropy of the classifier prediction is selected as the expected loss function for the decision task. Deep learning models have achieved state-of-the-art results in various branches of natural language processing and also in text classification. The combination of active learning for data selection and the proposed uncertainty representation based on deep neural network ensemble has achieved significantly better results than random selection strategies or active learning with an alternative uncertainty representation.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Aktivní učení	cze
dc.subject	ensemble modely hlubokého učení	cze
dc.subject	ensemble modely neuronových sítí	cze
dc.subject	Active learning	eng
dc.subject	ensemble models of deep learning	eng
dc.subject	ensemble models of neural networks	eng
dc.title	Aktivní učení pro klasifikaci textů	cze
dc.title	Active learning for text classification	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Drchal Jan
theses.degree.discipline	Aplikované matematicko-stochastické metody	cze
theses.degree.grantor	katedra matematiky	cze
theses.degree.programme	Aplikace přírodních věd	cze

Soubory tohoto záznamu

Název:: F4-DP-2021-Sahan-Marko-dp_amsm ...
Velikost:: 5.597Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F4-DP-2020-posudek-Smidl_Vaclav.pdf
Velikost:: 34.03Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F4-DP-2020-posudek-Drchal_Jan.pdf
Velikost:: 261.4Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 14101 [152]

Zobrazit minimální záznam