Heterogenní kernel
Heterogeneous kernel
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Samuel Fabo
Vedoucí práce
Motl Jan
Oponent práce
Vašata Daniel
Studijní obor
Znalostní inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Metódy strojového učenia, ktoré používajú kernelové funkcie sú dobre preskúmané, avšak väčšina týchto kernelových funkcií vie pracovať len s numerickými vstupnými dátami. Aby tieto kernely vedeli spracovať kategorické dáta, sme schopní priviesť do numerickej formy hlavne pomocou metód one-hot-encoding (OHE) alebo target-encoding. Nevýhodou OHE je, že signifikantne zvyšuje dimenzionalitu dát, ak je počet hodnôt v kategorických príznakoch (kardinalita) vysoká. Táto práca prináša riešenie pre zmiešané dáta, s potenciálne vyššou kardinalitou kategorických príznakov. Je tu predstavený nový kernel, ktorý vie pracovať so zmiešanými dátami a má veľmi dobré výsledky merania času a pamäte na dátach s vysokou kardinalitou. Predstavujem tu hlavne tzv. kategorický vektorový súčin, ktorý imituje klasický vektorový súčin po OHE ako aj kategorické Euklidovské vzdialenosti imitujúce klasický prístup po OHE. Tento heterogénny kernel vie pracovať ako lineárny, polynomiálny, a RBF kernel. Výsledky meraní ukázali, že tento kernel vie urýchliť výpočet a zmenšiť prírastok pamäte, ak by dataset obsahoval ako numerické, tak kategorické príznaky o vyššej kardinalite. Tento fakt bol taktiež demonštrovaný na reálnych datasetoch. Machine learning methods using kernel functions are well explored, but most of the kernel functions work only with numerical input. To let these numerical kernels work with categorical features, we need to use preprocessing methods such as one-hot-encoding (OHE) or target-encoding. The disadvantage of OHE is that it significantly increases the dimensionality of the data whenever the number of values in categorical features (cardinality) is high. This thesis proposes a solution for mixed data with potentially high cardinality categorical features. A new kernel for heterogeneous data is introduced, having good runtime and memory results on data with higher cardinality. Here, I introduce categorical dot product, imitating dot product after OHE, same as categorical Euclidean distances, imitating classical approach after OHE. This heterogeneous kernel can work as linear, polynomial, and RBF kernel. Results of measurements have shown how this kernel can decrease the runtime and lower the memory consumption if the dataset contains both numerical and categorical features of high cardinality. I also demonstrated this fact on real datasets.
Kolekce
- Bakalářské práce - 18105 [244]
Související záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Bezdrátově ovladatelné USB zařízení
Autor: Tomáš Kuchař; Vedoucí práce: Polách Radomír; Oponent práce: Klán Petr
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2019-06-20)Bakalářská práce si dává za cíl vytvořit chytré USB zařízení z Raspberry Pi, které bude po připojení k počítači simulovat různé USB periferie podle výběru uživatele. Zařízení bude bezdrátově ovladatelné pomocí aplikace na ... -
Modifikace programového vybavení komunikačního zařízení Profibus Analyzer
Autor: Kubeš Daniel; Vedoucí práce: Štěpán Petr; Oponent práce: Dušek Miroslav
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2018-06-12)Tato diplomová práce se zabývá vývojem firmwaru pro zařízení Profibus Analyzer od firmy Siemens. Zařízení bude možné využít pro analýzu dvou kanálů Profibus DP a jednoho kanálu PA v jedné časové doméně, což je nezbytně ... -
Metody strojového učení ve fyzice pevných látek
Autor: Jan Trödler; Vedoucí práce: Vybíral Jan; Oponent práce: Šmídl Václav
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2020-08-26)Strojové učení lze použít k efektivní předpovědi parametrů testovacích dat na základě dat trénovacích. Jedněmi z používaných metod strojového učení jsou metody Kernel Ridge Regression a LASSO, které obě vycházejí z lineární ...