Heterogenní kernel

Samuel Fabo

Heterogeneous kernel

dc.contributor.advisor	Motl Jan
dc.contributor.author	Samuel Fabo
dc.date.accessioned	2019-06-15T22:52:39Z
dc.date.available	2019-06-15T22:52:39Z
dc.date.issued	2019-06-15
dc.identifier	KOS-762877438905
dc.identifier.uri	http://hdl.handle.net/10467/83219
dc.description.abstract	Metódy strojového učenia, ktoré používajú kernelové funkcie sú dobre preskúmané, avšak väčšina týchto kernelových funkcií vie pracovať len s numerickými vstupnými dátami. Aby tieto kernely vedeli spracovať kategorické dáta, sme schopní priviesť do numerickej formy hlavne pomocou metód one-hot-encoding (OHE) alebo target-encoding. Nevýhodou OHE je, že signifikantne zvyšuje dimenzionalitu dát, ak je počet hodnôt v kategorických príznakoch (kardinalita) vysoká. Táto práca prináša riešenie pre zmiešané dáta, s potenciálne vyššou kardinalitou kategorických príznakov. Je tu predstavený nový kernel, ktorý vie pracovať so zmiešanými dátami a má veľmi dobré výsledky merania času a pamäte na dátach s vysokou kardinalitou. Predstavujem tu hlavne tzv. kategorický vektorový súčin, ktorý imituje klasický vektorový súčin po OHE ako aj kategorické Euklidovské vzdialenosti imitujúce klasický prístup po OHE. Tento heterogénny kernel vie pracovať ako lineárny, polynomiálny, a RBF kernel. Výsledky meraní ukázali, že tento kernel vie urýchliť výpočet a zmenšiť prírastok pamäte, ak by dataset obsahoval ako numerické, tak kategorické príznaky o vyššej kardinalite. Tento fakt bol taktiež demonštrovaný na reálnych datasetoch.	cze
dc.description.abstract	Machine learning methods using kernel functions are well explored, but most of the kernel functions work only with numerical input. To let these numerical kernels work with categorical features, we need to use preprocessing methods such as one-hot-encoding (OHE) or target-encoding. The disadvantage of OHE is that it significantly increases the dimensionality of the data whenever the number of values in categorical features (cardinality) is high. This thesis proposes a solution for mixed data with potentially high cardinality categorical features. A new kernel for heterogeneous data is introduced, having good runtime and memory results on data with higher cardinality. Here, I introduce categorical dot product, imitating dot product after OHE, same as categorical Euclidean distances, imitating classical approach after OHE. This heterogeneous kernel can work as linear, polynomial, and RBF kernel. Results of measurements have shown how this kernel can decrease the runtime and lower the memory consumption if the dataset contains both numerical and categorical features of high cardinality. I also demonstrated this fact on real datasets.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Nominálne dáta	cze
dc.subject	kategorické dáta	cze
dc.subject	heterogénne dáta	cze
dc.subject	kernel metódy	cze
dc.subject	klasifikácia	cze
dc.subject	podporné vektory	cze
dc.subject	SVM	cze
dc.subject	kernelová hrebeňová regresia	cze
dc.subject	vysoká kardinalita	cze
dc.subject	chýbajúce hodnoty	cze
dc.subject	chýbajúce dáta	cze
dc.subject	predspracovanie dát	cze
dc.subject	Nominal data	eng
dc.subject	categorical data	eng
dc.subject	heterogeneous data	eng
dc.subject	kernel methods	eng
dc.subject	classification	eng
dc.subject	support vector machine	eng
dc.subject	kernel ridge regression	eng
dc.subject	high-cardinality	eng
dc.subject	missing data	eng
dc.subject	missing values	eng
dc.subject	data preprocessing	eng
dc.title	Heterogenní kernel	cze
dc.title	Heterogeneous kernel	eng
dc.type	bakalářská práce	cze
dc.type	bachelor thesis	eng
dc.contributor.referee	Vašata Daniel
theses.degree.discipline	Znalostní inženýrství	cze
theses.degree.grantor	katedra aplikované matematiky	cze
theses.degree.programme	Informatika	cze

Soubory tohoto záznamu

Název:: F8-BP-2019-Fabo-Samuel-thesis.pdf
Velikost:: 927.7Kb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F8-BP-2019-posudek-Motl_Jan.pdf
Velikost:: 137.6Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F8-BP-2019-posudek-Vasata_Dani ...
Velikost:: 135.2Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Bakalářské práce - 18105 [295]

Zobrazit minimální záznam

Heterogenní kernel

Soubory tohoto záznamu

Tento záznam se objevuje v následujících kolekcích

Související záznamy

Kvantové strojové učení ﻿

Bezdrátově ovladatelné USB zařízení ﻿

Modifikace programového vybavení komunikačního zařízení Profibus Analyzer ﻿

Kvantové strojové učení

Bezdrátově ovladatelné USB zařízení

Modifikace programového vybavení komunikačního zařízení Profibus Analyzer