Textové příznaky pro zlepšení relevance full-textového vyhledávání
Text signals relevance improvement for full text serch
Type of document
diplomová prácemaster thesis
Author
Hnízdil Jan
Supervisor
Šedivý Jan
Opponent
Kordík Pavel
Field of study
Znalostní inženýrstvíStudy program
InformatikaInstitutions assigning rank
katedra teoretické informatikyDefended
2015-06-10Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Show full item recordAbstract
Ačkoliv se vyhledávání informací na webu stalo standardem a často oblíbenym zdrojem pro hledání informací již před mnoha lety, úloha hledání relevance dokumentů k danému uživatelskému dotazu má stále mnoho slabych míst, které je zapotřebí zlepšit. Tato práce se snaží nalézt takové textové příznaky, které by zlepšily vysledky full-textového vyhledávání, a tím i spokojenost uživatelů, za využití datasetů od společnosti Seznam.cz. Za prvé jsou v rámci této diplomové práce analyzovány hlavní LTR algoritmy, evaluační míry a běžně používané textové signály známé z literatury. Za druhé byl navržen a naimplementován systém pro testování a evaluaci nově přidanych textovych signálů a nakonec byly tyto nově přidané signály porovnány s anonymizovanymi signály, které v současnosti používá Seznam.cz, prostřednictvím velké sady experimentů. Although web search has become a standard and often favored source of information finding many years ago, the task of searching relevance documents to given user query has still a lot of weak spaces need to be improved. This thesis is trying to find new text relevance signals to improve full-text search and user satisfaction via datasets provided by Seznam.cz. First of all, there is analyzed and evaluated major LTR algorithms, evaluation metrics and commonly used text signals known from literature. Second, system for testing and evaluation of new signals was designed and implemented and finally bunch of experiments over the new text signals were conducted and results were compared with anonymized baseline signals provided by Seznam.cz.
Collections
- Diplomové práce - 18101 [208]