Sémantická textová podobnost v češtině
Semantic Textual Similarity in Czech
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Jiří Bednář
Vedoucí práce
Vašata Daniel
Oponent práce
Novák Petr
Studijní obor
Znalostní inženýrstvíStudijní program
Informatika, platnost do 2024Instituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Nedávné pokroky v problému sémantické textové podobnosti známé jako STS se uskutečnili především díky dostupnosti velkého množství anglických anotovaných dat, což je luxus, který čeština a další méně rozsáhlé jazyky často postrádají. V této práci se zabýváme výzvami a možnými zlepšeními při řešení problému STS pro češtinu. Zkoumáme pokroky v oblasti neuronových sítí, včetně architektury Transformeru a předtrénovaných jazykových modelů, jako jsou BERT, RoBERTa a ELECTRA. Poskytujeme rozsáhlou studii technik, modelů pro STS, a také metod pro generování embeddingů vět. Dále se zabýváme architekturami Cross-encoder a Bi-encoder spolu s pokročilými metodami trénování, jako jsou SimCSE, TSDAE, Trans-Encoder a vícejazyčná destilace. Představujeme naše STS modely natrénované pomocí těchto technik a vyhodnocujeme je na STS a dvou dalších úlohách. Analyzujeme náš nejlepší STS model, který stanovuje několik state-of-the-art výsledků, což ukazuje potenciál pro budoucí pokrok v oblasti STS pro jazyky s menší dostupností dat. Recent significant advancements in semantic textual similarity (STS) have primarily been driven by the availability of annotated data for English, a luxury that Czech and other low-resource languages often lack. In this thesis, we investigate the challenges and potential improvements in solving the STS problem for the Czech language. Our research explores advancements in neural networks, including the Transformer architecture and pre-trained language models such as BERT, RoBERTa, and ELECTRA. We provide an extensive study of techniques and models for STS, as well as methods for generating sentence embeddings. Additionally, we discuss Cross-encoder and Bi-encoder architectures, along with advanced training methods like SimCSE, TSDAE, Trans-Encoder, and Multilingual distillation. We present our STS models trained using these techniques and evaluate their performance on STS and two downstream tasks. Through our analysis, we highlight our best STS model, which sets multiple state-of-the-art results, demonstrating the potential for future advancements in STS for low-resource languages.
Kolekce
- Bakalářské práce - 18105 [292]
Související záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Reprezentace klasických dat pomocí kvantových stavů metodou rozděl a panuj
Autor: Pavel Slaninka; Vedoucí práce: Petr Ivo; Oponent práce: Vašata Daniel
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2024-06-14)Tato práce se zaměřuje na zkoumání několika známých způsobů kvantového kódování dat. Konkrétně jsou představeny čtyři postupy kódování dat, z nichž každý využívá jiný přístup k reprezentaci klasických dat pomocí kvantových ... -
Evaluation of XPath queries over XML documents using SparkSQL framework
Autor: Hricov Radoslav; Vedoucí práce: Šenk Adam; Oponent práce: Kroha Petr
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2016-02-09)Cieľom tejto práce je implementovať podmnožinu výrazov jazyka XPath pomocou systému Spark SQL. Prvá časť práce je zameraná na predstavenie projektu Apache Spark. Druhá časť pokrýva analýzu možnosti mapovania XML dokumentov ... -
Ověření toho, co nám bylo řečeno: Rekonstrukce řeči z elektroencefalografických (EEG) dat
Autor: Ortiz Barajas Maria Clemencia; Vedoucí práce: Lalor Edmund C.; Oponent práce: Krajča Vladimír
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2015-08-07)Previous studies have shown that it is possible to reconstruct speech fromintracranial recordings of the brainactivity of the listeners. However the use of invasive recording techniques is limited to animals, and to humans ...