Interactive nearest neighbor search in high dimensional data
Interaktivní hledání nejbližších sousedů ve vysocedimenzionálních datech
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Vyhledávání nejbližších sousedů je důležitý problém v mnoha oblastech. V této práci se zaobíráme tímto problémem pro vysocedimenzionální data v interaktivním prostředí, s častým přidáváním a odebíráním z korpusu známých dat ve kterém hledáme nejbliží sousedy, specificky určeno pro použití v automatickém dokazování teorémů v nástrojích jako Coq, HOL4 a podobně Zkoumáme různé metriky podobností, abysme rozhodli která se nejlépe hodí pro naše účely a datům, a použijeme různé techniky jako Minhashing, Locality Sensitive Hashing (hashování citlivé na rozmístění) a LSH Forest pro zrychlení vyhledávání se současným zachováním dostatečné přesnosti. Naše algoritmy implementujeme v OCamlu aby byly použitelné v Coq theorem proveru.
Nearest Neighbor search is an important problem in many fields of study. In this thesis we concern ourselves with this problem for a high dimensional dataset in an interactive setting, with frequent insertions and deletions from corpus of known data in which we search for nearest neighbors, specifically for use in automated theorem solvers such as Coq, HOL4 and others. We explore different similarity measures, to decide which is a best fit for our use case and data, and use techniques such as Minhashing, Locality Sensitive Hashing and LSH Forest to accelerate the search for nearest neighbors, while keeping a reasonable accuracy. We implement our algorithms in OCaml to interface with the Coq theorem prover.
Nearest Neighbor search is an important problem in many fields of study. In this thesis we concern ourselves with this problem for a high dimensional dataset in an interactive setting, with frequent insertions and deletions from corpus of known data in which we search for nearest neighbors, specifically for use in automated theorem solvers such as Coq, HOL4 and others. We explore different similarity measures, to decide which is a best fit for our use case and data, and use techniques such as Minhashing, Locality Sensitive Hashing and LSH Forest to accelerate the search for nearest neighbors, while keeping a reasonable accuracy. We implement our algorithms in OCaml to interface with the Coq theorem prover.
Description
Keywords
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.