ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Information Technology
  • Doctoral Theses - 18000
  • View Item
  • Czech Technical University in Prague
  • Faculty of Information Technology
  • Doctoral Theses - 18000
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Podobnostní vyhledávání v nestrukturovaných datech využitím datově-tranzitivních modelů

Similarity Search in Unstructured Data using Data-Transitive Models

Type of document
disertační práce
doctoral thesis
Author
David Bernhauer
Supervisor
Skopal Tomáš
Opponent
Dohnal Vlastislav
Field of study
Informatika
Study program
Informatika
Institutions assigning rank
katedra softwarového inženýrství



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Podobnostní vyhledávání se stává součástí aplikací, které používáme každý den, např. doporučovací systémy nebo aplikace pro vyhledávání multimedií. S rostoucím množstvím dat roste i potřeba v těchto nestrukturovaných datech rychle a efektivně vyhledávat. Zatímco různé podobnostní přístupy k indexaci zajišťují rychlost vyhledávání, jejich omezení limitují efektivitu reprezentovanou relevancí výsledků. Proto vzniká poptávka po indexakčních metodách, které kladou co nejmenší omezení a přesto umožňují indexování velkých mutlimediálních databází. Tato práce prezentuje nové indikátory indexovatelnosti (angl. triangularity a ptolemaicity) které zohledňují indexy požadovanou strukturu dat. Kromě toho dokáží zachytit i porušení těchto omezení a případně úroveň takového porušení. Oba indikátory využívají analýzy vztahů mezi objekty v databázi. Využitím těchto indikátorů jsme provedli analýzu vysoce dimenzionálních dat. Experimenty potvrdily očekávané vlastnosti těchto indikátorů. Druhá část se zabývá transformací nemetrických vzdáleností, která umožňuje indexaci nemetrických podobnostních prostorů pomocí tradičních metrických přístupů. Metrické indexy jsou de facto standardem v oblasti podobnostního vyhledávání, takže je možné využít mnoho již existujících indexů. Jako řešení jsme navrhli TriGenGA jako rožšíření algoritmu TriGen o generování obecných modifikátorů pomocí genetických algoritmů. Výsledky ukázaly, že takové modifikátory překonávají existující TriGen algoritmus v rychlosti i efektivitě. Na závěr jsme definovali datově-tranzitivní podobnostní meta-model, který je ukázkou inherentně nemetrické podobnosti. Hlavní důraz je kladen na relevanci podobnostního vyhledávání. V případě dat s mnoha duplicitami či málo podobnostními propojeními je obzvláště obtížný úkol vytvořit kvalitní podobnostní model. Datově-tranzitivní podobnostní meta-model řeší tento problém pomocí sestavení řetězu podobných objektů, který může propojovat i zcela nepodobné objekty. Zároveň je takový řetěz vysvětlením, proč jsou dva objekty vzájemně relevantní. Navíc, přestože se jedná o zcela nový přístup, je na něj možné aplikovat běžné podobnostní přístupy. Tento meta-model jsme úspěšně otestovali v rámci domény otevřených dat. Práce je strukturována jako komentář k již publikovaným článkům.
 
Similarity search is becoming part of the applications we use daily, e.g., in recommendation systems or multimedia search applications. As the amount of data grows, so does the need to search this unstructured data efficiently and effectively. While various similarity indexing approaches provide efficiency, their constraints on the used similarity limit the effectiveness that represents the relevance of the results. Hence, there is a demand for indexing methods that impose as few constraints as possible and still manage to index big multimedia databases. This thesis presents new indexability indicators (triangularity and ptolemaicity) that consider the data structure required by indexes. Moreover, they can also capture violations of these constraints and possibly the level of such violations. Both indicators use an analysis of relationships between objects in the database. We have analyzed high-dimensional data using these indicators, and experiments confirmed the expected properties of these indicators. The second part deals with transforming non-metric distance measures to enable the indexing of non-metric similarity spaces using traditional metric approaches. Metric indexes are the de facto standard in similarity search, so it is possible to use many existing indexes. As a solution, we proposed TriGenGA as an extension of the TriGen algorithm to generate general modifiers using genetic algorithms. The results showed that such modifiers outperform the existing TriGen algorithm’s efficiency and effectiveness. Finally, we defined a data-transitive similarity meta-model that illustrates inherently non-metric similarity. The main focus is on the relevance of similarity search. It is challenging to design a high-quality similarity model in the case of data with many duplicates or few similarity links. A data-transitive similarity meta-model solves this problem by constructing a chain of similar objects that can link even mutually dissimilar objects. At the same time, the chain itself is an explanation of why two objects are relevant. Moreover, although this is a completely new approach, it is possible to apply common similarity approaches. We have successfully tested this meta-model within the domain of open datasets. The thesis is structured as a commentary on already published papers.
 
URI
http://hdl.handle.net/10467/105296
View/Open
PLNY_TEXT (11.88Mb)
Collections
  • Disertační práce - 18000 [55]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV