Interaktivní hledání nejbližších sousedů ve vysocedimenzionálních datech
Interactive nearest neighbor search in high dimensional data
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Prokop Černý
Vedoucí práce
Blaauwbroek Lasse
Oponent práce
Lisý Viliam
Studijní obor
SoftwareStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Vyhledávání nejbližších sousedů je důležitý problém v mnoha oblastech. V této práci se zaobíráme tímto problémem pro vysocedimenzionální data v interaktivním prostředí, s častým přidáváním a odebíráním z korpusu známých dat ve kterém hledáme nejbliží sousedy, specificky určeno pro použití v automatickém dokazování teorémů v nástrojích jako Coq, HOL4 a podobně Zkoumáme různé metriky podobností, abysme rozhodli která se nejlépe hodí pro naše účely a datům, a použijeme různé techniky jako Minhashing, Locality Sensitive Hashing (hashování citlivé na rozmístění) a LSH Forest pro zrychlení vyhledávání se současným zachováním dostatečné přesnosti. Naše algoritmy implementujeme v OCamlu aby byly použitelné v Coq theorem proveru. Nearest Neighbor search is an important problem in many fields of study. In this thesis we concern ourselves with this problem for a high dimensional dataset in an interactive setting, with frequent insertions and deletions from corpus of known data in which we search for nearest neighbors, specifically for use in automated theorem solvers such as Coq, HOL4 and others. We explore different similarity measures, to decide which is a best fit for our use case and data, and use techniques such as Minhashing, Locality Sensitive Hashing and LSH Forest to accelerate the search for nearest neighbors, while keeping a reasonable accuracy. We implement our algorithms in OCaml to interface with the Coq theorem prover.
Kolekce
- Bakalářské práce - 13136 [1124]