Automatic Name and Snippet Generation of Web pages with Unknown Content
Automatické generování názvu a popisek webových stránek s neznámým obsahem
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Tato práce se zabývá problémem automatického generování názvů a popisek webových stránek, pomocí jejich okolí namísto jejich obsahu. Rostoucí počet webových stránek je namísto textem tvořen multimédii či je interaktivní, případně jejich obsah nemůže být stažen z různých důvodů. Tyto stránky ale mohou být pro uživatele důležité a vyhledávače potřebují uživatelům prezentovat jejich popisy. V této práci je zkoumána řada přístupů k této problematice a je představena metoda pro automatickou tvorbu názvů a popisků. Její úspěšnost je následně změřena a jsou vytvořeny ukázkové popisky.
This thesis explores the problem of name and snippet generation of web pages based on their context rather than on their content. A growing number of web pages is short on text and rich on multimedia, or is highly interactive, or their content can not be downloaded for various reasons. But these web pages may still be valuable for users and search engines need to present their labels. In this thesis a survey of several approaches to this task is presented, the process of automatic generation of the synthetic content is proposed and the performance of proposed method is measured. Exemplary snippets are then generated.
This thesis explores the problem of name and snippet generation of web pages based on their context rather than on their content. A growing number of web pages is short on text and rich on multimedia, or is highly interactive, or their content can not be downloaded for various reasons. But these web pages may still be valuable for users and search engines need to present their labels. In this thesis a survey of several approaches to this task is presented, the process of automatic generation of the synthetic content is proposed and the performance of proposed method is measured. Exemplary snippets are then generated.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.