Automatizace předzpracování dat ve strojovém učení
Automation of Data Preprocessing in Machine Learning
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Anna Gruberová
Vedoucí práce
Mácha Václav
Oponent práce
Škvára Vít
Studijní obor
Aplikace softwarového inženýrstvíStudijní program
Aplikace přírodních vědInstituce přidělující hodnost
katedra softwarového inženýrstvíPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Cílem této bakalářské práce je navrhnout a implementovat nástroj, který ulehčí stahování a předzpracování datových sad pro strojové učení. Nástrojů pro usnadnění práce s daty existuje velká řada, nicméně tyto nástroje sice poskytují funkce na stažení a další zpracování vybraných datových sad, ale neumožňují uživateli snadné přidání nové datové sady. Navíc ani tato data nepřevádí do jednotného výstupního formátu, takže není možné na nová data aplikovat již existující funkce. Stěžejní částí této práce je návrh nového nástroje, který řeší zmíněné nedostatky, a popis jeho implementace v programovacím jazyce Julia, včetně kompletního příkladu použití na konkrétní datové sadě. The goal of this bachelor thesis is to design and implement a tool, that facilitate downloading and preprocessing of data sets for machine learning. There is a large number of such tools, however, these tools provide functions for downloading and further processing of selected data sets, but do not allow the user to easily add a new data set. In addition, they do not even convert this data into a uniform output format, so it is not possible to apply existing functions to new data. The main part of this thesis is the layout of the new tool that solves the mentioned shortcomings, and a description of its implementation in the Julia programming language, including a complete example of its usage on a specific dataset.