Comparison of online and offline evaluation metrics in Recommender Systems

Petr Kasalický

Porovnání online a offline evaluačních metrik v doporučovacích systémech

Typ dokumentu

diplomová práce
master thesis

Autor

Petr Kasalický

Vedoucí práce

Řehořek Tomáš

Oponent práce

Klouda Karel

Studijní obor

Znalostní inženýrství

Studijní program

Informatika 2010

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Cílem práce je prozkoumat doporučovací systémy a způsoby jejich vyhodnocení. Je kladen důraz na porovnání online a offline způsobů vyhodnocení, neboť jejich vztah je velmi sporný. Při výzkumu se běžně používá recall pro optimalizaci doporučovacích algoritmů. Avšak recall může trpět různými problémy a nemusí vždy odpovídat online metrikám, jako je míra prokliku. Toto tvrzení je experimentálně ověřeno za použití produkčního doporučovacího systému s cílem změřit korelaci mezi recallem a mírou prokliku. Jak ukazuje sada vyčerpávajících experimentů s velkým množstvím modelů a metrik na několika průmyslových datasetech, tak korelace mezi recallem a mírou proklikou není vždy zaručena. Vzniká tak velká otázka nad současnými metodami porovnávání modelů ve výzkumu. Jako částečné zlepšení offline metrik je představena nová metoda měření recallu, která lépe reflekujte sekvečnost interakcí stejně jako jejich nenáhodné rozdělení, a tím zvyšuje její podobnost s mírou prokliku.

The goal of this work is to explore Recommender Systems and methods of evaluating them. The focus is on comparing online and offline approaches of evaluation, as their relationship is highly questionable. In research, recall is commonly used to optimize recommendation algorithms. However, recall can suffer from various problems and may not always correspond to online metrics such as click-through rate. This claim is experimentally verified by measuring the correlation between recall and the click-through rate using a production Recommender System. As shown by a set of exhaustive experiments with a~large number of models and metrics on several industrial datasets, the correlation between recall and the click-through rate is not always guaranteed. This raises a big question about current methods of comparing models in research. As a partial improvement of offline metrics, a new approach of measuring recall is introduced to reflect better the sequence nature of interactions as well as their non-random distribution and increase correlation with the click-through rate.