Zobrazit minimální záznam

Active learning for text classification



dc.contributor.advisorŠmídl Václav
dc.contributor.authorMarko Sahan
dc.date.accessioned2021-10-25T12:51:17Z
dc.date.available2021-10-25T12:51:17Z
dc.date.issued2020-07-23
dc.identifierKOS-922667791205
dc.identifier.urihttp://hdl.handle.net/10467/98281
dc.description.abstractModely strojového učení pro klasifikaci jsou založené na učení parametrů black box modelu, které popisují vztah mezi vzorky dat a jejích třídou. Proces sběru dat a jejích labelů pro účely trénování modelu může být komplikovaný a drahý. Množina dat je v mnoha případech větší než množina dostupných labelů, ale našim předpokladem je to, že nové labely můžou být obdržené prostřednictvím dotazu anotátorovi. Aktivní učení je proces výběru takových dat pro anotování, které povedou ke zvýšení diskriminability datasetu. Mnoho různých metod aktivniho učení v mnoha různých odvětvích bylo navrženo pro úlohy v nichž se používá učení s učitelem. V tomto projektu jsou popsané a ukázané různé metody aktivniho učení pro klasifikaci textů. Navíc jsou porovnávané už existující black box modely a jejích reprezentace neurčitosti. Modely aktivniho učení jsou formalizované pomocí teorie rozhodování, kde rozhodnutím je výběr dat bez labelů pro získávání anotace a neurčitost je v parametrech klasifikátorů. Entropie predikce klasifikátoru je vybrána jako očekávaná ztrátová funkce pro rozhodovací úlohu. Modely hlubokého učení dosáhli state-of-the-art výsledků v různých odvětvích zpracování přirozeného jazyka a také v klasifikaci textu. Kombinace aktivniho učení pro výběr dat a navržené reprezentace neurčitosti založené na ensemblech hlubokých neuronových sítí dosáhla výrazně lepších výsledků než strategie náhodného výběru nebo aktivní učení s alternativní reprezentací neurčitosti.cze
dc.description.abstractMachine learning models for classification are based on learning the parameters of the black box model, which describe the relationship between the data samples and its class. The process of collecting data and its labels for model training purposes can be complicated and expensive. The data set is in many cases larger than the set of available labels, but our assumption is that new labels can be obtained by querying the annotator. Active learning is the process of selecting such data for annotation, which will increase the discrimination of the dataset. Many different methods of active learning in many different industries have been designed for tasks in which teacher learning is used. In this project, various methods of active learning for the classification of texts are described and shown. In addition, existing black box models and their representations of uncertainty are compared. Active learning models are formalized using decision theory, where the decision is to select data without labels for obtaining annotations and the uncertainty is in the parameters of the classifiers. The entropy of the classifier prediction is selected as the expected loss function for the decision task. Deep learning models have achieved state-of-the-art results in various branches of natural language processing and also in text classification. The combination of active learning for data selection and the proposed uncertainty representation based on deep neural network ensemble has achieved significantly better results than random selection strategies or active learning with an alternative uncertainty representation.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectAktivní učenícze
dc.subjectensemble modely hlubokého učenícze
dc.subjectensemble modely neuronových sítícze
dc.subjectActive learningeng
dc.subjectensemble models of deep learningeng
dc.subjectensemble models of neural networkseng
dc.titleAktivní učení pro klasifikaci textůcze
dc.titleActive learning for text classificationeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeDrchal Jan
theses.degree.disciplineAplikované matematicko-stochastické metodycze
theses.degree.grantorkatedra matematikycze
theses.degree.programmeAplikace přírodních vědcze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam