Zobrazit minimální záznam

Detecting similarities of data domains using machine learning methods



dc.contributor.advisorBuk Zdeněk
dc.contributor.authorAndrej Oliver Chudý
dc.date.accessioned2019-06-11T14:48:50Z
dc.date.available2019-06-11T14:48:50Z
dc.date.issued2019-06-07
dc.identifierKOS-862365744805
dc.identifier.urihttp://hdl.handle.net/10467/82588
dc.description.abstractCieľom tejto práce je navrhnúť a zostrojiť systém, na základe ktorého by bolo možne efektívne porovnávať podobnosť v stĺpcoch tabuľky. Bolo preukázané, že vektorová reprezentácia stĺpca vytvorená pomocou rekurentnej neurónovej siete je schopná dobre zakódovať vlastnosti domény, ktorú reprezentuje. V porovnaní s TF-IDF metódou, ktorá je na tento účel najčastejšie používaná, RNN dosiahli zlepšenie až o \textbf{14,5\%}. Na základe výsledkov tejto práce bol implementovaný a nasadený systém na doporučovanie Business Terms v produkte Ataccama One.cze
dc.description.abstractThis thesis describes the design and implementation of a system for comparing the similarity of columns in an arbitrary database. We have shown that our system, based on recurrent neural networks, outperforms the industry standard TF-IDF method by \textbf{14.5\%}. We therefore, conclude that our system is capable of learning to effectively recognize the domain properties of data in the database. We deployed the described system in Atacama One, where it is responsible for Business Terms recommendations.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectembeddingcze
dc.subjectrekurentné neuronové sietecze
dc.subjectsiamesecze
dc.subjecttripletcze
dc.subjectsesequence to sequencecze
dc.subjectseq2seqcze
dc.subjectgpt2cze
dc.subjectdatabázacze
dc.subjectdetekcia cudzích kľúčovcze
dc.subjectdoporučovanie Business Termscze
dc.subjectLSTMcze
dc.subjectGRUcze
dc.subjectcuDNNGRUcze
dc.subjectembeddingeng
dc.subjectrecurrent neural networkseng
dc.subjectsiameseeng
dc.subjecttripleteng
dc.subjectsequence to sequenceeng
dc.subjectseq2seqeng
dc.subjectgpt2eng
dc.subjectdatabaseeng
dc.subjectsimilarityeng
dc.subjectcolumneng
dc.subjectforeign key detectioneng
dc.subjectBusiness Terms suggestioneng
dc.subjectLSTMeng
dc.subjectGRUeng
dc.subjectcuDNNGRUeng
dc.titleDetekce podobností datových domén pomocí metod strojového učenícze
dc.titleDetecting similarities of data domains using machine learning methodseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeSurynek Pavel
theses.degree.disciplineZnalostní inženýrstvícze
theses.degree.grantorkatedra aplikované matematikycze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu




Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam