Rozpoznávání pojmenovaných entit v českém jazyce

Radek Štulc

Named Entity Recognition in Czech

dc.contributor.advisor	Ullrich Herbert
dc.contributor.author	Radek Štulc
dc.date.accessioned	2024-06-18T14:36:35Z
dc.date.available	2024-06-18T14:36:35Z
dc.date.issued	2024-06-04
dc.identifier	KOS-1240737338205
dc.identifier.uri	http://hdl.handle.net/10467/115618
dc.description.abstract	Rozpoznávání pojmenovaných entit (NER) je dílčím úkolem “information extraction”, který se snaží najít a klasifikovat pojmenované entity uvedené v nestrukturovaném textu do předem definovaných kategorií, jako jsou jména osob věk, data, organizace ard. Je to jedna z hlavních technik “Natural Language Processing” (NLP) a silný klasifikátor entit je nedílnou součástí každého výzkumu, kde je správná reprezentace entit zásadní. V češtině je největším veřejně dostupným korpusem “Czech Named Entity Corpus”. Tento korpus obsahuje vnořené entity, a proto všechny nejmodernější modely natrénované na tomto korpusu řeší problém vnořeného NER. V této práci jsem tento korpus upravil tak, aby obsahoval pouze nevnořené entity pro řešení problému NER pomocí knihoven “Hugging Face” se zaměřením na replikovatelnost trénování a vytvoření jednoduchého, ale silného klasifikátoru. Klasifikátor je založen na české jednojazyčné verzi RoBERTa, robustně optimalizovaném tréniku založeném na architektuře “BERT”, jménem RobeCzech. Řešení navržené v této práci překračuje známé state-of-the-art výsledky a zdá se, že je dobře škálovatelné s reálnými daty.	cze
dc.description.abstract	Named Entity Recognition (NER) is a subtask of information extraction that seeks to locate and classify named entities mentioned in unstructured text into pre-defined categories, such as person names, ages, dates, organizations, etc. It is one of the main techniques in Natural Language Processing (NLP), and a strong entity classifier is an inseparable part of every research, where the correct representation of entities is essential. In Czech, the biggest publicly available corpus is the Czech Named Entity Corpus. This corpus contains nested entities and therefore all state-of-the-art models trained on this corpus solve the problem of nested NER. In this thesis, I modified this corpus to contain only flat entities to solve the NER problem using the Hugging Face libraries with a focus on the replicability of training and creating a simple yet strong classifier. The classifier is based on a Czech monolingual version of RoBERTa, a robustly optimized BERT pre-training approach, named RobeCzech. The solution proposed in the thesis exceeds the known state-of-the-art results and seems to scale well with real-world data	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Rozpoznávání pojmenovaných entit	cze
dc.subject	NER	cze
dc.subject	nested NER	cze
dc.subject	Transformers	cze
dc.subject	Czech Named Entity Corpus	cze
dc.subject	CNEC	cze
dc.subject	Named Entity Recognition	eng
dc.subject	NER	eng
dc.subject	nested NER	eng
dc.subject	Transformers	eng
dc.subject	Czech Named Entity Corpus	eng
dc.subject	CNEC	eng
dc.title	Rozpoznávání pojmenovaných entit v českém jazyce	cze
dc.title	Named Entity Recognition in Czech	eng
dc.type	bakalářská práce	cze
dc.type	bachelor thesis	eng
dc.contributor.referee	Mařík Radek
theses.degree.discipline	Základy umělé inteligence a počítačových věd	cze
theses.degree.grantor	katedra kybernetiky	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-BP-2024-Stulc-Radek-NamedEn ...
Velikost:: 1.869Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-BP-2024-Stulc-Radek-priloha ...
Velikost:: 36.41Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-BP-2024-posudek-Ullrich_Her ...
Velikost:: 237.9Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-BP-2024-posudek-Marik_Radek.pdf
Velikost:: 223.4Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Bakalářské práce - 13133 [777]

Zobrazit minimální záznam