Zobrazit minimální záznam

Documents classification using machine learning methods



dc.contributor.advisorBuk Zdeněk
dc.contributor.authorArtem Ustynov
dc.date.accessioned2020-06-20T22:52:28Z
dc.date.available2020-06-20T22:52:28Z
dc.date.issued2020-06-20
dc.identifierKOS-886320421305
dc.identifier.urihttp://hdl.handle.net/10467/88365
dc.description.abstractProblém hledání v nekategorizovaných dokumentech spočívá v tom, že uživatelům jsou často prezentovány výsledky, které obsahují hledaná klíčová slova, ale nejsou pro uživatele relevantní. Cílem této práce je rozšířit dokumenty o štítky na základě obsahu dokumentů. K dosažení cíle bylo zvažováno několik přístupů: Elasticsearch, Semaphore, LSTM, BERT. Cílem práce je zjistit, která technika má největší potenciál a poskytuje nejlepší výsledky. Všechny uvedené přístupy byly testovány a vyhodnoceny. Bylo zjištěno, že modely BERT fungovaly nejlépe a splnily všechny vstupní požadavky. Zlepšení kvality klasifikace pomocí BERT bylo dosaženo použitím počátečního modelu a manuální klasifikací malé sady dokumentů s nízkým skóre spolehlivosti.cze
dc.description.abstractThe problem of searching in uncategorized documents is that users are often presented with results that contain searched keywords, but are not relevant to the user. The goal of this work is to extend the documents with tags based on their content. To accomplish this several approaches were considered: Elasticsearch, Semaphore, LSTM, BERT. The objective of this thesis is to determine which technology has the most potential and provides the best results. All listed approaches were tested and evaluated. It was found that BERT models performed the best and satisfied all of the initial business requirements. Some improvements in the quality of classification with BERT were achieved by utilizing the initial model and manually classifying a small set of documents with a low confidence score.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectElasticsearchcze
dc.subjectSemaphorecze
dc.subjectLSTMcze
dc.subjectBERTcze
dc.subjectklasifikace textucze
dc.subjectElasticsearcheng
dc.subjectSemaphoreeng
dc.subjectLSTMeng
dc.subjectBERTeng
dc.subjecttext classificationeng
dc.titleKlasifikace dokumentů pomocí metod strojového učenícze
dc.titleDocuments classification using machine learning methodseng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeŠtepanovský Michal
theses.degree.disciplineComputer Science (Bachelor, in English)cze
theses.degree.grantorkatedra teoretické informatikycze
theses.degree.programmeInformatics (in English)cze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam