Interaktivní hledání nejbližších sousedů ve vysocedimenzionálních datech
Interactive nearest neighbor search in high dimensional data
Type of document
bakalářská prácebachelor thesis
Author
Prokop Černý
Supervisor
Blaauwbroek Lasse
Opponent
Lisý Viliam
Field of study
SoftwareStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Vyhledávání nejbližších sousedů je důležitý problém v mnoha oblastech. V této práci se zaobíráme tímto problémem pro vysocedimenzionální data v interaktivním prostředí, s častým přidáváním a odebíráním z korpusu známých dat ve kterém hledáme nejbliží sousedy, specificky určeno pro použití v automatickém dokazování teorémů v nástrojích jako Coq, HOL4 a podobně Zkoumáme různé metriky podobností, abysme rozhodli která se nejlépe hodí pro naše účely a datům, a použijeme různé techniky jako Minhashing, Locality Sensitive Hashing (hashování citlivé na rozmístění) a LSH Forest pro zrychlení vyhledávání se současným zachováním dostatečné přesnosti. Naše algoritmy implementujeme v OCamlu aby byly použitelné v Coq theorem proveru. Nearest Neighbor search is an important problem in many fields of study. In this thesis we concern ourselves with this problem for a high dimensional dataset in an interactive setting, with frequent insertions and deletions from corpus of known data in which we search for nearest neighbors, specifically for use in automated theorem solvers such as Coq, HOL4 and others. We explore different similarity measures, to decide which is a best fit for our use case and data, and use techniques such as Minhashing, Locality Sensitive Hashing and LSH Forest to accelerate the search for nearest neighbors, while keeping a reasonable accuracy. We implement our algorithms in OCaml to interface with the Coq theorem prover.
Collections
- Bakalářské práce - 13136 [1124]