Robustní neuronové reprezentace pro korekci překlepů
Robust neural embeddings for typos correction
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Martin Eliáš
Vedoucí práce
Kordík Pavel
Oponent práce
Šimeček Ivan
Studijní obor
Umělá inteligence 2021Studijní program
InformatikaInstituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce poskytuje přehled moderních neuronových sítí pro reprezentaci textu a opravy překlepů s důrazem na předtrénované modely a modely využívající architekturu transformer. Je navržen srovnávací systém, který je použit k vyhodnocení několika modelů jak v jejich předtrénovaných verzích, tak po ladění. Vyhodnocení obsahují několik metrik hodnotících jak výkonnost, tak i náklady na inferenci na korpusu obsahujícím přirozené věty i úryvky kódu, Git\-Hub Typo Corpus. Vzhledem k tomu, že knihovna NeuSpell pro opravu pravopisu pracuje výhradně na úrovni tokenů, byl navržen algoritmus pro opravu mezer, který aproximuje mezery po predikci. This thesis provides a review of modern neural networks for the representation of text and typo corrections with emphasis on transformer-based architectures and pre-trained models. A benchmarking framework is proposed and used to evaluate several models in both their pre-trained versions and after fine-tuning. The evaluations contain several metrics assessing both performance and inference cost on a corpus containing both natural sentences and code snippets, GitHub Typo Corpus. Since the NeuSpell library for spelling correction operates solely on a token-based level, a space correction algorithm was proposed to approximate the spacing after prediction.
Kolekce
- Bakalářské práce - 18105 [370]