Show simple item record

Similarity Search in Unstructured Data using Data-Transitive Models



dc.contributor.advisorSkopal Tomáš
dc.contributor.authorDavid Bernhauer
dc.date.accessioned2022-12-12T11:19:21Z
dc.date.available2022-12-12T11:19:21Z
dc.date.issued2022-12-08
dc.identifierKOS-878299654005
dc.identifier.urihttp://hdl.handle.net/10467/105296
dc.description.abstractPodobnostní vyhledávání se stává součástí aplikací, které používáme každý den, např. doporučovací systémy nebo aplikace pro vyhledávání multimedií. S rostoucím množstvím dat roste i potřeba v těchto nestrukturovaných datech rychle a efektivně vyhledávat. Zatímco různé podobnostní přístupy k indexaci zajišťují rychlost vyhledávání, jejich omezení limitují efektivitu reprezentovanou relevancí výsledků. Proto vzniká poptávka po indexakčních metodách, které kladou co nejmenší omezení a přesto umožňují indexování velkých mutlimediálních databází. Tato práce prezentuje nové indikátory indexovatelnosti (angl. triangularity a ptolemaicity) které zohledňují indexy požadovanou strukturu dat. Kromě toho dokáží zachytit i porušení těchto omezení a případně úroveň takového porušení. Oba indikátory využívají analýzy vztahů mezi objekty v databázi. Využitím těchto indikátorů jsme provedli analýzu vysoce dimenzionálních dat. Experimenty potvrdily očekávané vlastnosti těchto indikátorů. Druhá část se zabývá transformací nemetrických vzdáleností, která umožňuje indexaci nemetrických podobnostních prostorů pomocí tradičních metrických přístupů. Metrické indexy jsou de facto standardem v oblasti podobnostního vyhledávání, takže je možné využít mnoho již existujících indexů. Jako řešení jsme navrhli TriGenGA jako rožšíření algoritmu TriGen o generování obecných modifikátorů pomocí genetických algoritmů. Výsledky ukázaly, že takové modifikátory překonávají existující TriGen algoritmus v rychlosti i efektivitě. Na závěr jsme definovali datově-tranzitivní podobnostní meta-model, který je ukázkou inherentně nemetrické podobnosti. Hlavní důraz je kladen na relevanci podobnostního vyhledávání. V případě dat s mnoha duplicitami či málo podobnostními propojeními je obzvláště obtížný úkol vytvořit kvalitní podobnostní model. Datově-tranzitivní podobnostní meta-model řeší tento problém pomocí sestavení řetězu podobných objektů, který může propojovat i zcela nepodobné objekty. Zároveň je takový řetěz vysvětlením, proč jsou dva objekty vzájemně relevantní. Navíc, přestože se jedná o zcela nový přístup, je na něj možné aplikovat běžné podobnostní přístupy. Tento meta-model jsme úspěšně otestovali v rámci domény otevřených dat. Práce je strukturována jako komentář k již publikovaným článkům.cze
dc.description.abstractSimilarity search is becoming part of the applications we use daily, e.g., in recommendation systems or multimedia search applications. As the amount of data grows, so does the need to search this unstructured data efficiently and effectively. While various similarity indexing approaches provide efficiency, their constraints on the used similarity limit the effectiveness that represents the relevance of the results. Hence, there is a demand for indexing methods that impose as few constraints as possible and still manage to index big multimedia databases. This thesis presents new indexability indicators (triangularity and ptolemaicity) that consider the data structure required by indexes. Moreover, they can also capture violations of these constraints and possibly the level of such violations. Both indicators use an analysis of relationships between objects in the database. We have analyzed high-dimensional data using these indicators, and experiments confirmed the expected properties of these indicators. The second part deals with transforming non-metric distance measures to enable the indexing of non-metric similarity spaces using traditional metric approaches. Metric indexes are the de facto standard in similarity search, so it is possible to use many existing indexes. As a solution, we proposed TriGenGA as an extension of the TriGen algorithm to generate general modifiers using genetic algorithms. The results showed that such modifiers outperform the existing TriGen algorithm’s efficiency and effectiveness. Finally, we defined a data-transitive similarity meta-model that illustrates inherently non-metric similarity. The main focus is on the relevance of similarity search. It is challenging to design a high-quality similarity model in the case of data with many duplicates or few similarity links. A data-transitive similarity meta-model solves this problem by constructing a chain of similar objects that can link even mutually dissimilar objects. At the same time, the chain itself is an explanation of why two objects are relevant. Moreover, although this is a completely new approach, it is possible to apply common similarity approaches. We have successfully tested this meta-model within the domain of open datasets. The thesis is structured as a commentary on already published papers.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectpodobnostní vyhledávánícze
dc.subjectindexovatelnostcze
dc.subjectnemetrické podobnostní modelycze
dc.subjectTriGencze
dc.subjectdatově-tranzitivní podobnostní meta-modelcze
dc.subjectsimilarity searcheng
dc.subjectindexabilityeng
dc.subjectnon-metric similarity modelseng
dc.subjectTriGeneng
dc.subjectdata-transitivesimilarity meta-modeleng
dc.titlePodobnostní vyhledávání v nestrukturovaných datech využitím datově-tranzitivních modelůcze
dc.titleSimilarity Search in Unstructured Data using Data-Transitive Modelseng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereeDohnal Vlastislav
theses.degree.disciplineInformatikacze
theses.degree.grantorkatedra softwarového inženýrstvícze
theses.degree.programmeInformatikacze


Files in this item


This item appears in the following Collection(s)

Show simple item record