Heterogeneous kernel

dc.contributor.advisor Motl, Jan
dc.contributor.author Fabo, Samuel
dc.contributor.referee Vašata, Daniel
dc.date.accessioned 2019-06-15T22:52:39Z
dc.date.available 2019-06-15T22:52:39Z
dc.date.issued 2019-06-15
dc.description.abstract Metódy strojového učenia, ktoré používajú kernelové funkcie sú dobre preskúmané, avšak väčšina týchto kernelových funkcií vie pracovať len s numerickými vstupnými dátami. Aby tieto kernely vedeli spracovať kategorické dáta, sme schopní priviesť do numerickej formy hlavne pomocou metód one-hot-encoding (OHE) alebo target-encoding. Nevýhodou OHE je, že signifikantne zvyšuje dimenzionalitu dát, ak je počet hodnôt v kategorických príznakoch (kardinalita) vysoká. Táto práca prináša riešenie pre zmiešané dáta, s potenciálne vyššou kardinalitou kategorických príznakov. Je tu predstavený nový kernel, ktorý vie pracovať so zmiešanými dátami a má veľmi dobré výsledky merania času a pamäte na dátach s vysokou kardinalitou. Predstavujem tu hlavne tzv. kategorický vektorový súčin, ktorý imituje klasický vektorový súčin po OHE ako aj kategorické Euklidovské vzdialenosti imitujúce klasický prístup po OHE. Tento heterogénny kernel vie pracovať ako lineárny, polynomiálny, a RBF kernel. Výsledky meraní ukázali, že tento kernel vie urýchliť výpočet a zmenšiť prírastok pamäte, ak by dataset obsahoval ako numerické, tak kategorické príznaky o vyššej kardinalite. Tento fakt bol taktiež demonštrovaný na reálnych datasetoch. cs
dc.description.abstract Machine learning methods using kernel functions are well explored, but most of the kernel functions work only with numerical input. To let these numerical kernels work with categorical features, we need to use preprocessing methods such as one-hot-encoding (OHE) or target-encoding. The disadvantage of OHE is that it significantly increases the dimensionality of the data whenever the number of values in categorical features (cardinality) is high. This thesis proposes a solution for mixed data with potentially high cardinality categorical features. A new kernel for heterogeneous data is introduced, having good runtime and memory results on data with higher cardinality. Here, I introduce categorical dot product, imitating dot product after OHE, same as categorical Euclidean distances, imitating classical approach after OHE. This heterogeneous kernel can work as linear, polynomial, and RBF kernel. Results of measurements have shown how this kernel can decrease the runtime and lower the memory consumption if the dataset contains both numerical and categorical features of high cardinality. I also demonstrated this fact on real datasets. en
dc.identifier KOS-762877438905
dc.identifier.uri http://hdl.handle.net/10467/83219
dc.publisher České vysoké učení technické v Praze cs
dc.publisher Czech Technical University in Prague en
dc.rights A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. en
dc.rights Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. cs
dc.subject Nominálne dáta cs
dc.subject kategorické dáta cs
dc.subject heterogénne dáta cs
dc.subject kernel metódy cs
dc.subject klasifikácia cs
dc.subject podporné vektory cs
dc.subject SVM cs
dc.subject kernelová hrebeňová regresia cs
dc.subject vysoká kardinalita cs
dc.subject chýbajúce hodnoty cs
dc.subject chýbajúce dáta cs
dc.subject predspracovanie dát cs
dc.subject Nominal data en
dc.subject categorical data en
dc.subject heterogeneous data en
dc.subject kernel methods en
dc.subject classification en
dc.subject support vector machine en
dc.subject kernel ridge regression en
dc.subject high-cardinality en
dc.subject missing data en
dc.subject missing values en
dc.subject data preprocessing en
dc.title Heterogenní kernel cs
dc.title Heterogeneous kernel en
dc.type bachelor thesis en
dspace.entity.type Publication
relation.isAdvisorOfPublication eff7c7f6-4035-466b-b43a-5eee5eeedd00
relation.isAdvisorOfPublication.latestForDiscovery eff7c7f6-4035-466b-b43a-5eee5eeedd00
relation.isAuthorOfPublication 44f71e51-158c-4048-b8ce-87d2e3790995
relation.isAuthorOfPublication.latestForDiscovery 44f71e51-158c-4048-b8ce-87d2e3790995
relation.isRefereeOfPublication b096ba13-266b-4af5-843a-28cf1ea6fc0e
relation.isRefereeOfPublication.latestForDiscovery b096ba13-266b-4af5-843a-28cf1ea6fc0e
theses.degree.discipline Znalostní inženýrství cs
theses.degree.grantor katedra aplikované matematiky cs
theses.degree.programme Informatika cs

Files

Original bundle

Now showing 1 - 3 of 3
Name:
F8-BP-2019-Fabo-Samuel-thesis.pdf
Size:
927.71 KB
Format:
Adobe Portable Document Format
Description:
PLNY_TEXT
Name:
F8-BP-2019-posudek-Motl_Jan.pdf
Size:
137.66 KB
Format:
Adobe Portable Document Format
Description:
POSUDEK
Name:
F8-BP-2019-posudek-Vasata_Daniel.pdf
Size:
135.23 KB
Format:
Adobe Portable Document Format
Description:
POSUDEK