Čištění dat pomocí pravděpodobnostního programování

Tomáš Jungman

Data cleaning with probabilistic programming

dc.contributor.advisor	Rybář Vojtěch
dc.contributor.author	Tomáš Jungman
dc.date.accessioned	2022-06-16T22:53:34Z
dc.date.available	2022-06-16T22:53:34Z
dc.date.issued	2022-06-16
dc.identifier	KOS-1065790527905
dc.identifier.uri	http://hdl.handle.net/10467/102087
dc.description.abstract	Práce zahrnuje rešerši z oblasti čištění a doplňování datových sad a zaměřuje se na konkrétní přístup s využitím pravděpodobnostního programování. Pro praktickou část práce je využíván pravděpodobnostní programovací jazyk PClean naprogramovaný v jazyce Julia. Jsou vysvětleny principy, na kterých funguje, a popsány konkrétní části nutné pro sepsání programu. Následně je v PClean napsán program pro doplnění a opravu hodnot v datové sadě se záznamy automobilů (cena, výkon, palivo, atd.) S touto opravenou sadou dat se provádí odhad ceny za pomocí regrese a kvalita výsledku se porovnává s výsledky při použití neupravených dat se sjednocenou doplňovanou hodnotou pro každý sloupec, anebo doplněných na základě odborných znalostí. Model naučený daty doplněných s PClean nedosahuje kvalit modelu založeného na odborných znalostech. Ale na druhou stranu PClean nabízí rychlý způsob doplnění chybějících kategorických hodnot s kvalitou přesahující dnes běžně používané triviální doplnění.	cze
dc.description.abstract	This paper includes research in the field of cleaning and filling in datasets and focuses on a specific approach using probabilistic programming. The practical part of the work operates with the probabilistic programming language PClean, programmed in Julia. The principles on which it operates are explained and the specific parts required to write the program are laid out. Subsequently, PClean is used to write a program for filling and correcting values in a data set with car records (price, power, fuel, etc.) Once this dataset is corrected, regression is used to estimate the price and the quality of the result is compared with the results based on uncorrected data with standardised added values for each column or added based on expert knowledge. The model learned the data via PClean does not achieve the qualities of the model based on expert knowledge. However, PClean does offer a fast way to fill in missing categorical values with a quality exceeding the trivial fill-in mechanism commonly used today.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	PClean	cze
dc.subject	Julia	cze
dc.subject	pravděpodobnostní programování	cze
dc.subject	příprava dat	cze
dc.subject	čištění datových sad	cze
dc.subject	doplňování chybějících dat	cze
dc.subject	PClean	eng
dc.subject	Julia	eng
dc.subject	probabilistic programming	eng
dc.subject	data preprocessing	eng
dc.subject	data cleaning	eng
dc.subject	filling missing data	eng
dc.title	Čištění dat pomocí pravděpodobnostního programování	cze
dc.title	Data cleaning with probabilistic programming	eng
dc.type	bakalářská práce	cze
dc.type	bachelor thesis	eng
dc.contributor.referee	Vašata Daniel
theses.degree.discipline	Znalostní inženýrství	cze
theses.degree.grantor	katedra aplikované matematiky	cze
theses.degree.programme	Informatika 2009	cze

Soubory tohoto záznamu

Název:: F8-BP-2022-Jungman-Tomas-thesis.pdf
Velikost:: 1.406Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F8-BP-2022-posudek-Rybar_Vojte ...
Velikost:: 44.93Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F8-BP-2022-posudek-Vasata_Dani ...
Velikost:: 44.28Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Bakalářské práce - 18105 [292]

Zobrazit minimální záznam