Kontrafaktuální učení řazení výsledků v personalizovaném vyhledávání

Michael Kolínský

Counterfactual Learning-to-Rank in Personalized Search

Typ dokumentu

diplomová práce
master thesis

Autor

Michael Kolínský

Vedoucí práce

Řehořek Tomáš

Oponent práce

Da Silva Alves Rodrigo Augusto

Studijní obor

Znalostní inženýrství

Studijní program

Informatika

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato práce se zabývá oblastí vyhledávačů, s důrazem na kontrafaktuální metody Learning to Rank, zkreslení způsobené pozicí dokumentů a zkreslení způsobené výběrem dokumentů v historických interakcích, personalizaci vyhledávacích výsledků a úspěšnostní metriky pro offline vyhodnocení seřazených dokumentů. Cílem studie je navrhnout a implementovat framework pro učení vhodných modelů s využitím kontrafaktuálních Learning to Rank metod, které se používají pro srovnání úspěšnosti řazení těchto modelů a k jejich tréninku. Navíc jsou navrženy některé specifické vyhledávací příznaky pro dokumenty i uživatele, které mají zlepšit úspěšnost těchto modelů. Off-line experimenty byly prováděny na dvou významně odlišných průmyslových datasetech s cílem posoudit úspěšnost řazení různých modelů pomocí vybraných metod. Část experimentů je věnována srovnání různých příznaků k personalizaci pro konkrétního uživatele. Úspěšnost těchto modelů byla hodnocena pomocí vhodných úspěšnostních metrik pro off-line kontrafaktuální vyhodnocení i s dalšími metrikami pro offline vyhodnocení. Toto dílo přispívá k optimalizaci vyhledávačů. Zjištění mohou být použita pro personalizaci vyhledávácích výsledků a vývoj efektivnějších modelů pro vyhledávání.

This thesis explores the field of search engines, with a particular emphasis on Counterfactual Learning to Rank, position bias, and document selection bias in historical interactions, personalization of search results, and success metrics for offline ranking evaluation. The study aims to design and implement a framework to learn suitable models utilizing Counterfactual Learning to Rank methods that are used to compare the ranking performance of the models and train unbiased models. Additionally, some document-specific search features as well as user-specific features are proposed to enhance the performance of these models. Offline experiments were conducted on two significantly different provided industrial datasets to assess the retrieval performance of various models using the selected methods. Part of the experiments are dedicated to the comparison of different personalization approaches. The performance of these models was evaluated using appropriate success metrics for offline counterfactual evaluation, as well as other offline evaluation metrics. In conclusion, this research contributes to search engine optimization. The study's findings have implications for the personalization of search results and the development of more effective search engine algorithms.