Zobrazit minimální záznam

Semantic Textual Similarity in Czech



dc.contributor.advisorVašata Daniel
dc.contributor.authorJiří Bednář
dc.date.accessioned2024-06-19T09:51:54Z
dc.date.available2024-06-19T09:51:54Z
dc.date.issued2024-06-14
dc.identifierKOS-1180078401805
dc.identifier.urihttp://hdl.handle.net/10467/115637
dc.description.abstractNedávné pokroky v problému sémantické textové podobnosti známé jako STS se uskutečnili především díky dostupnosti velkého množství anglických anotovaných dat, což je luxus, který čeština a další méně rozsáhlé jazyky často postrádají. V této práci se zabýváme výzvami a možnými zlepšeními při řešení problému STS pro češtinu. Zkoumáme pokroky v oblasti neuronových sítí, včetně architektury Transformeru a předtrénovaných jazykových modelů, jako jsou BERT, RoBERTa a ELECTRA. Poskytujeme rozsáhlou studii technik, modelů pro STS, a také metod pro generování embeddingů vět. Dále se zabýváme architekturami Cross-encoder a Bi-encoder spolu s pokročilými metodami trénování, jako jsou SimCSE, TSDAE, Trans-Encoder a vícejazyčná destilace. Představujeme naše STS modely natrénované pomocí těchto technik a vyhodnocujeme je na STS a dvou dalších úlohách. Analyzujeme náš nejlepší STS model, který stanovuje několik state-of-the-art výsledků, což ukazuje potenciál pro budoucí pokrok v oblasti STS pro jazyky s menší dostupností dat.cze
dc.description.abstractRecent significant advancements in semantic textual similarity (STS) have primarily been driven by the availability of annotated data for English, a luxury that Czech and other low-resource languages often lack. In this thesis, we investigate the challenges and potential improvements in solving the STS problem for the Czech language. Our research explores advancements in neural networks, including the Transformer architecture and pre-trained language models such as BERT, RoBERTa, and ELECTRA. We provide an extensive study of techniques and models for STS, as well as methods for generating sentence embeddings. Additionally, we discuss Cross-encoder and Bi-encoder architectures, along with advanced training methods like SimCSE, TSDAE, Trans-Encoder, and Multilingual distillation. We present our STS models trained using these techniques and evaluate their performance on STS and two downstream tasks. Through our analysis, we highlight our best STS model, which sets multiple state-of-the-art results, demonstrating the potential for future advancements in STS for low-resource languages.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectčeštinacze
dc.subjectsémantická textová podobnostcze
dc.subjectneuronové sítěcze
dc.subjectTransformercze
dc.subjectpředtrénované jazykové modelycze
dc.subjectBERTcze
dc.subjectRoBERTacze
dc.subjectELECTRAcze
dc.subjectvětný embeddingcze
dc.subjectCross-encodercze
dc.subjectBi-encodercze
dc.subjectSimCSEcze
dc.subjectTSDAEcze
dc.subjectTrans-Encodercze
dc.subjectvícejazyčná destilacecze
dc.subjectstate-of-the-artcze
dc.subjectCzecheng
dc.subjectSemantic Textual Similarityeng
dc.subjectNeural Networkseng
dc.subjectTransformereng
dc.subjectPre-trained Language Modelseng
dc.subjectBERTeng
dc.subjectRoBERTaeng
dc.subjectELECTRAeng
dc.subjectsentence embeddingeng
dc.subjectCross-encodereng
dc.subjectBi-encodereng
dc.subjectSimCSEeng
dc.subjectTSDAEeng
dc.subjectTrans-Encodereng
dc.subjectMultilingual distillationeng
dc.subjectstate-of-the-arteng
dc.subjectlow-resource languageseng
dc.titleSémantická textová podobnost v češtiněcze
dc.titleSemantic Textual Similarity in Czecheng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeNovák Petr
theses.degree.disciplineZnalostní inženýrstvícze
theses.degree.grantorkatedra aplikované matematikycze
theses.degree.programmeInformatika, platnost do 2024cze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam