Podobnostní vyhledávání v nestrukturovaných datech využitím datově-tranzitivních modelů
Similarity Search in Unstructured Data using Data-Transitive Models
Type of document
disertační prácedoctoral thesis
Author
David Bernhauer
Supervisor
Skopal Tomáš
Opponent
Dohnal Vlastislav
Field of study
InformatikaStudy program
InformatikaInstitutions assigning rank
katedra softwarového inženýrstvíRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Podobnostní vyhledávání se stává součástí aplikací, které používáme každý den, např. doporučovací systémy nebo aplikace pro vyhledávání multimedií. S rostoucím množstvím dat roste i potřeba v těchto nestrukturovaných datech rychle a efektivně vyhledávat. Zatímco různé podobnostní přístupy k indexaci zajišťují rychlost vyhledávání, jejich omezení limitují efektivitu reprezentovanou relevancí výsledků. Proto vzniká poptávka po indexakčních metodách, které kladou co nejmenší omezení a přesto umožňují indexování velkých mutlimediálních databází. Tato práce prezentuje nové indikátory indexovatelnosti (angl. triangularity a ptolemaicity) které zohledňují indexy požadovanou strukturu dat. Kromě toho dokáží zachytit i porušení těchto omezení a případně úroveň takového porušení. Oba indikátory využívají analýzy vztahů mezi objekty v databázi. Využitím těchto indikátorů jsme provedli analýzu vysoce dimenzionálních dat. Experimenty potvrdily očekávané vlastnosti těchto indikátorů. Druhá část se zabývá transformací nemetrických vzdáleností, která umožňuje indexaci nemetrických podobnostních prostorů pomocí tradičních metrických přístupů. Metrické indexy jsou de facto standardem v oblasti podobnostního vyhledávání, takže je možné využít mnoho již existujících indexů. Jako řešení jsme navrhli TriGenGA jako rožšíření algoritmu TriGen o generování obecných modifikátorů pomocí genetických algoritmů. Výsledky ukázaly, že takové modifikátory překonávají existující TriGen algoritmus v rychlosti i efektivitě. Na závěr jsme definovali datově-tranzitivní podobnostní meta-model, který je ukázkou inherentně nemetrické podobnosti. Hlavní důraz je kladen na relevanci podobnostního vyhledávání. V případě dat s mnoha duplicitami či málo podobnostními propojeními je obzvláště obtížný úkol vytvořit kvalitní podobnostní model. Datově-tranzitivní podobnostní meta-model řeší tento problém pomocí sestavení řetězu podobných objektů, který může propojovat i zcela nepodobné objekty. Zároveň je takový řetěz vysvětlením, proč jsou dva objekty vzájemně relevantní. Navíc, přestože se jedná o zcela nový přístup, je na něj možné aplikovat běžné podobnostní přístupy. Tento meta-model jsme úspěšně otestovali v rámci domény otevřených dat. Práce je strukturována jako komentář k již publikovaným článkům. Similarity search is becoming part of the applications we use daily, e.g., in recommendation systems or multimedia search applications. As the amount of data grows, so does the need to search this unstructured data efficiently and effectively. While various similarity indexing approaches provide efficiency, their constraints on the used similarity limit the effectiveness that represents the relevance of the results. Hence, there is a demand for indexing methods that impose as few constraints as possible and still manage to index big multimedia databases. This thesis presents new indexability indicators (triangularity and ptolemaicity) that consider the data structure required by indexes. Moreover, they can also capture violations of these constraints and possibly the level of such violations. Both indicators use an analysis of relationships between objects in the database. We have analyzed high-dimensional data using these indicators, and experiments confirmed the expected properties of these indicators. The second part deals with transforming non-metric distance measures to enable the indexing of non-metric similarity spaces using traditional metric approaches. Metric indexes are the de facto standard in similarity search, so it is possible to use many existing indexes. As a solution, we proposed TriGenGA as an extension of the TriGen algorithm to generate general modifiers using genetic algorithms. The results showed that such modifiers outperform the existing TriGen algorithm’s efficiency and effectiveness. Finally, we defined a data-transitive similarity meta-model that illustrates inherently non-metric similarity. The main focus is on the relevance of similarity search. It is challenging to design a high-quality similarity model in the case of data with many duplicates or few similarity links. A data-transitive similarity meta-model solves this problem by constructing a chain of similar objects that can link even mutually dissimilar objects. At the same time, the chain itself is an explanation of why two objects are relevant. Moreover, although this is a completely new approach, it is possible to apply common similarity approaches. We have successfully tested this meta-model within the domain of open datasets. The thesis is structured as a commentary on already published papers.