Cross-Encoder Models in Czech

Cross-Encoder modely v češtině

Research Projects

Organizational Units

Journal Issue

Abstract

Cross-Encoder je architektura na bázi ecoderu, určena pro modelování sémantických vztahů mezi větami. Díky společnému zpracování obou textů dobře dokáže zachytit mezi větné vztahy a dosahuje state-of-the-art výsledků mezi ostatními modely. V moji bakalářské práci prozkoumávám tuto architekturu v českém prostředí. Rozebírám možnosti existujících českých datasetů a pre-trained BERT-based modelů. Výsledkem je funkční Cross-Encoder, který v českém prostředí dosahuje vysokých výsledků jak při hodnocení sémantické podobnosti textů, tak v úloze re-rankingu. Model následně zveřejňuji společně s build skripty pro tvorbu datasetů, které umožní reprodukci mé práce.

Cross-Encoder is an encoder-based architecture designed for modeling semantic relationships between sentences. By processing both texts together, it effectively captures relationships between sentences and achieves state-of-the-art results. In my bachelors thesis, I explore this architecture in the Czech environment. I discuss the possibilities of existing Czech datasets and pre-trained BERT-based models. The outcome is a fully functional Cross-Encoder that achieves excellent results in the Czech environment, both in evaluating semantic textual similarity and in re-ranking tasks. I am publishing the model along with build scripts for dataset creation, enabling the reproduction of my work.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By