Named Entity Recognition Using Recurrent Neural Networks
Rozpoznávání pojmenovaných entit s pomocí rekurentních neuronových sítí
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Rozpoznávání pojmenovaných entit je podúloha ve vyhledávání strukturovaných informací. Jedná se o klasifikaci slov ve větě, které reprezentují entity s vlastním jménem, jako na příklad osoby, organizace nebo lokace. Rozpoznávání entit se často využívá v automatickém odpovídání na otázky. Cílem této práce je rešerše a implementace systému pro rozpoznávání pojmenovaných en-tit na českém (Czech Named Entity Corpus 2.0) a následně anglickém (ConLL2003) datasetu. Bude provedeno několik experimentů s běžnými algoritmy na klasifikaci sekvencí (Condi-tional Random Fields), které vyžadují ruční tvorbu příznaků, a umělými neuronovými sítěmi, které se reprezentaci dat učí samy.
Named entity recognition is a subtask in information retrieval, where we look for entities and objects that can be denoted by a proper name, such as persons, organizations or locations. The results are often used in a pipeline, such as question answering or entity linking. The aim of this work is to research and implement a named entity recognition system on the Czech Named Entity Corpus (CNEC 2.0) and CoNLL2003 dataset. We will do several experiments using standard algorithms for sequence labelling (Conditional Random Fields) with linguistic features extracted from literature and several neural network architectures which operate on raw data.
Named entity recognition is a subtask in information retrieval, where we look for entities and objects that can be denoted by a proper name, such as persons, organizations or locations. The results are often used in a pipeline, such as question answering or entity linking. The aim of this work is to research and implement a named entity recognition system on the Czech Named Entity Corpus (CNEC 2.0) and CoNLL2003 dataset. We will do several experiments using standard algorithms for sequence labelling (Conditional Random Fields) with linguistic features extracted from literature and several neural network architectures which operate on raw data.