Sémantická textová podobnost v češtině
Semantic Textual Similarity in Czech
dc.contributor.advisor | Vašata Daniel | |
dc.contributor.author | Jiří Bednář | |
dc.date.accessioned | 2024-06-19T09:51:54Z | |
dc.date.available | 2024-06-19T09:51:54Z | |
dc.date.issued | 2024-06-14 | |
dc.identifier | KOS-1180078401805 | |
dc.identifier.uri | http://hdl.handle.net/10467/115637 | |
dc.description.abstract | Nedávné pokroky v problému sémantické textové podobnosti známé jako STS se uskutečnili především díky dostupnosti velkého množství anglických anotovaných dat, což je luxus, který čeština a další méně rozsáhlé jazyky často postrádají. V této práci se zabýváme výzvami a možnými zlepšeními při řešení problému STS pro češtinu. Zkoumáme pokroky v oblasti neuronových sítí, včetně architektury Transformeru a předtrénovaných jazykových modelů, jako jsou BERT, RoBERTa a ELECTRA. Poskytujeme rozsáhlou studii technik, modelů pro STS, a také metod pro generování embeddingů vět. Dále se zabýváme architekturami Cross-encoder a Bi-encoder spolu s pokročilými metodami trénování, jako jsou SimCSE, TSDAE, Trans-Encoder a vícejazyčná destilace. Představujeme naše STS modely natrénované pomocí těchto technik a vyhodnocujeme je na STS a dvou dalších úlohách. Analyzujeme náš nejlepší STS model, který stanovuje několik state-of-the-art výsledků, což ukazuje potenciál pro budoucí pokrok v oblasti STS pro jazyky s menší dostupností dat. | cze |
dc.description.abstract | Recent significant advancements in semantic textual similarity (STS) have primarily been driven by the availability of annotated data for English, a luxury that Czech and other low-resource languages often lack. In this thesis, we investigate the challenges and potential improvements in solving the STS problem for the Czech language. Our research explores advancements in neural networks, including the Transformer architecture and pre-trained language models such as BERT, RoBERTa, and ELECTRA. We provide an extensive study of techniques and models for STS, as well as methods for generating sentence embeddings. Additionally, we discuss Cross-encoder and Bi-encoder architectures, along with advanced training methods like SimCSE, TSDAE, Trans-Encoder, and Multilingual distillation. We present our STS models trained using these techniques and evaluate their performance on STS and two downstream tasks. Through our analysis, we highlight our best STS model, which sets multiple state-of-the-art results, demonstrating the potential for future advancements in STS for low-resource languages. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | čeština | cze |
dc.subject | sémantická textová podobnost | cze |
dc.subject | neuronové sítě | cze |
dc.subject | Transformer | cze |
dc.subject | předtrénované jazykové modely | cze |
dc.subject | BERT | cze |
dc.subject | RoBERTa | cze |
dc.subject | ELECTRA | cze |
dc.subject | větný embedding | cze |
dc.subject | Cross-encoder | cze |
dc.subject | Bi-encoder | cze |
dc.subject | SimCSE | cze |
dc.subject | TSDAE | cze |
dc.subject | Trans-Encoder | cze |
dc.subject | vícejazyčná destilace | cze |
dc.subject | state-of-the-art | cze |
dc.subject | Czech | eng |
dc.subject | Semantic Textual Similarity | eng |
dc.subject | Neural Networks | eng |
dc.subject | Transformer | eng |
dc.subject | Pre-trained Language Models | eng |
dc.subject | BERT | eng |
dc.subject | RoBERTa | eng |
dc.subject | ELECTRA | eng |
dc.subject | sentence embedding | eng |
dc.subject | Cross-encoder | eng |
dc.subject | Bi-encoder | eng |
dc.subject | SimCSE | eng |
dc.subject | TSDAE | eng |
dc.subject | Trans-Encoder | eng |
dc.subject | Multilingual distillation | eng |
dc.subject | state-of-the-art | eng |
dc.subject | low-resource languages | eng |
dc.title | Sémantická textová podobnost v češtině | cze |
dc.title | Semantic Textual Similarity in Czech | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.contributor.referee | Novák Petr | |
theses.degree.discipline | Znalostní inženýrství | cze |
theses.degree.grantor | katedra aplikované matematiky | cze |
theses.degree.programme | Informatika, platnost do 2024 | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 18105 [292]