Textové reprezentace pro doporučovací systémy

Tomáš Černý

Text Embeddings for Recommender Systems

Type of document

bakalářská práce
bachelor thesis

Author

Tomáš Černý

Supervisor

Drchal Jan

Opponent

Kordík Pavel

Field of study

Základy umělé inteligence a počítačových věd

Study program

Otevřená informatika

Institutions assigning rank

katedra kybernetiky

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

V této práci zkoumáme způsoby, jak vylepšit existující doporučovací systémy pomocí textových embeddingů položek pro Top-N doporučování pomocí Sentence-BERT modelů. Vyhodnocujeme zvolené metody vůči state-of-the-art baseline metodám na datasetu MovieLens 100k, který rozdělujeme na trénovací a testovací množinu podle času interakce. Pro ladění hyperparametrů využíváme vnořenou validaci. Zjistili jsme, že jedna metoda s textovými embeddingy lehce zlepšuje kvalitu doporučení podle metrik na přítomnost položek (Hirate, Precision, Recall) a pořadí položek (NDCG) na zvoleném datasetu pro menší počet doporučovaných položek ale ne pro větší, kde je výkon srovnatelný.

In this thesis, we explore ways to enhance existing recommender systems with items' Sentence-BERT textual embeddings for the Top-N recommendation task. We evaluate the chosen methods against state-of-the-art baselines on the MovieLens 100k dataset split into test and train sets by interaction timestamp while using nested validation to tune hyperparameters. We find that textual embeddings used in one of the chosen methods improve recommendation quality very slightly as measured by both item-presence (Hitrate, Precision, Recall) and item-ranking metrics (NDCG) on the chosen dataset for shorter recommendation lists but not for longer where performance is comparable.