Sémantická textová podobnost v češtině

Jiří Bednář

Semantic Textual Similarity in Czech

dc.contributor.advisor	Vašata Daniel
dc.contributor.author	Jiří Bednář
dc.date.accessioned	2024-06-19T09:51:54Z
dc.date.available	2024-06-19T09:51:54Z
dc.date.issued	2024-06-14
dc.identifier	KOS-1180078401805
dc.identifier.uri	http://hdl.handle.net/10467/115637
dc.description.abstract	Nedávné pokroky v problému sémantické textové podobnosti známé jako STS se uskutečnili především díky dostupnosti velkého množství anglických anotovaných dat, což je luxus, který čeština a další méně rozsáhlé jazyky často postrádají. V této práci se zabýváme výzvami a možnými zlepšeními při řešení problému STS pro češtinu. Zkoumáme pokroky v oblasti neuronových sítí, včetně architektury Transformeru a předtrénovaných jazykových modelů, jako jsou BERT, RoBERTa a ELECTRA. Poskytujeme rozsáhlou studii technik, modelů pro STS, a také metod pro generování embeddingů vět. Dále se zabýváme architekturami Cross-encoder a Bi-encoder spolu s pokročilými metodami trénování, jako jsou SimCSE, TSDAE, Trans-Encoder a vícejazyčná destilace. Představujeme naše STS modely natrénované pomocí těchto technik a vyhodnocujeme je na STS a dvou dalších úlohách. Analyzujeme náš nejlepší STS model, který stanovuje několik state-of-the-art výsledků, což ukazuje potenciál pro budoucí pokrok v oblasti STS pro jazyky s menší dostupností dat.	cze
dc.description.abstract	Recent significant advancements in semantic textual similarity (STS) have primarily been driven by the availability of annotated data for English, a luxury that Czech and other low-resource languages often lack. In this thesis, we investigate the challenges and potential improvements in solving the STS problem for the Czech language. Our research explores advancements in neural networks, including the Transformer architecture and pre-trained language models such as BERT, RoBERTa, and ELECTRA. We provide an extensive study of techniques and models for STS, as well as methods for generating sentence embeddings. Additionally, we discuss Cross-encoder and Bi-encoder architectures, along with advanced training methods like SimCSE, TSDAE, Trans-Encoder, and Multilingual distillation. We present our STS models trained using these techniques and evaluate their performance on STS and two downstream tasks. Through our analysis, we highlight our best STS model, which sets multiple state-of-the-art results, demonstrating the potential for future advancements in STS for low-resource languages.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	čeština	cze
dc.subject	sémantická textová podobnost	cze
dc.subject	neuronové sítě	cze
dc.subject	Transformer	cze
dc.subject	předtrénované jazykové modely	cze
dc.subject	BERT	cze
dc.subject	RoBERTa	cze
dc.subject	ELECTRA	cze
dc.subject	větný embedding	cze
dc.subject	Cross-encoder	cze
dc.subject	Bi-encoder	cze
dc.subject	SimCSE	cze
dc.subject	TSDAE	cze
dc.subject	Trans-Encoder	cze
dc.subject	vícejazyčná destilace	cze
dc.subject	state-of-the-art	cze
dc.subject	Czech	eng
dc.subject	Semantic Textual Similarity	eng
dc.subject	Neural Networks	eng
dc.subject	Transformer	eng
dc.subject	Pre-trained Language Models	eng
dc.subject	BERT	eng
dc.subject	RoBERTa	eng
dc.subject	ELECTRA	eng
dc.subject	sentence embedding	eng
dc.subject	Cross-encoder	eng
dc.subject	Bi-encoder	eng
dc.subject	SimCSE	eng
dc.subject	TSDAE	eng
dc.subject	Trans-Encoder	eng
dc.subject	Multilingual distillation	eng
dc.subject	state-of-the-art	eng
dc.subject	low-resource languages	eng
dc.title	Sémantická textová podobnost v češtině	cze
dc.title	Semantic Textual Similarity in Czech	eng
dc.type	bakalářská práce	cze
dc.type	bachelor thesis	eng
dc.contributor.referee	Novák Petr
theses.degree.discipline	Znalostní inženýrství	cze
theses.degree.grantor	katedra aplikované matematiky	cze
theses.degree.programme	Informatika, platnost do 2024	cze

Files in this item

Name:: F8-BP-2023-Bednar-Jiri-thesis.pdf
Size:: 2.731Mb
Format:: PDF
Description:: PLNY_TEXT
: View/Open

Name:: F8-BP-2023-posudek-Novak_Petr.pdf
Size:: 43.67Kb
Format:: PDF
Description:: POSUDEK
: View/Open

Name:: F8-BP-2023-posudek-Vasata_Dani ...
Size:: 43.61Kb
Format:: PDF
Description:: POSUDEK
: View/Open

This item appears in the following Collection(s)

Bakalářské práce - 18105 [315]

Show simple item record

Sémantická textová podobnost v češtině

Files in this item

This item appears in the following Collection(s)

Related items

Reprezentace klasických dat pomocí kvantových stavů metodou rozděl a panuj ﻿

Evaluation of XPath queries over XML documents using SparkSQL framework ﻿

Ověření toho, co nám bylo řečeno: Rekonstrukce řeči z elektroencefalografických (EEG) dat ﻿

Reprezentace klasických dat pomocí kvantových stavů metodou rozděl a panuj

Evaluation of XPath queries over XML documents using SparkSQL framework

Ověření toho, co nám bylo řečeno: Rekonstrukce řeči z elektroencefalografických (EEG) dat