Textové reprezentace pro doporučovací systémy
Text Embeddings for Recommender Systems
Type of document
bakalářská prácebachelor thesis
Author
Tomáš Černý
Supervisor
Drchal Jan
Opponent
Kordík Pavel
Field of study
Základy umělé inteligence a počítačových vědStudy program
Otevřená informatikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
V této práci zkoumáme způsoby, jak vylepšit existující doporučovací systémy pomocí textových embeddingů položek pro Top-N doporučování pomocí Sentence-BERT modelů. Vyhodnocujeme zvolené metody vůči state-of-the-art baseline metodám na datasetu MovieLens 100k, který rozdělujeme na trénovací a testovací množinu podle času interakce. Pro ladění hyperparametrů využíváme vnořenou validaci. Zjistili jsme, že jedna metoda s textovými embeddingy lehce zlepšuje kvalitu doporučení podle metrik na přítomnost položek (Hirate, Precision, Recall) a pořadí položek (NDCG) na zvoleném datasetu pro menší počet doporučovaných položek ale ne pro větší, kde je výkon srovnatelný. In this thesis, we explore ways to enhance existing recommender systems with items' Sentence-BERT textual embeddings for the Top-N recommendation task. We evaluate the chosen methods against state-of-the-art baselines on the MovieLens 100k dataset split into test and train sets by interaction timestamp while using nested validation to tune hyperparameters. We find that textual embeddings used in one of the chosen methods improve recommendation quality very slightly as measured by both item-presence (Hitrate, Precision, Recall) and item-ranking metrics (NDCG) on the chosen dataset for shorter recommendation lists but not for longer where performance is comparable.
Collections
- Bakalářské práce - 13133 [777]