Směrem k lepšímu aktivnímu hlubokému učení s automatickou diagnostikou chybné kalibrace
Towards Better Active Deep Learning with Automatic Miscalibration Diagnosis
Type of document
disertační prácedoctoral thesis
Author
Ondřej Podsztavek
Supervisor
Tvrdík Pavel
Opponent
Šmídl Václav
Study program
InformatikaInstitutions assigning rank
katedra počítačových systémůDefended
2025-09-18Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Všude je spousta dat, na internetu, ve vědě atd. Samotná neanotovaná data však mají jen malou hodnotu. Cílem této disertace je zdokonalit aktivní hlubokého učení pro efektivní a spolehlivé anotování velkých datových množin se zvláštním důrazem na astronomická spektra. Abychom ověřili vhodnost aktivního hlubokého učení pro velké datové množiny astronomických spekter, použili jsme metodu aktivního hlubokého učení ke hledání vzácných astronomických objektů. Tato metoda, která spojuje konvoluční neuronovou síť s aktivním učením, úspěšně objevila řadu nových objektů, a to přestože jsme neměli k dispozici velkou a reprezentativní trénovací množinu. Úspěšnost aktivního hlubokého učení závisí na prediktivních nejistotách, proto jsme v návaznosti zkoumali metody pro jejich kvantifikaci. Vyvinuli jsme dvě pravděpodobnostní metody: jednu pro predikci spektroskopického rudého posuvu pomocí metody Monte Carlo dropout a druhou pro predikci atmosférických vlastností exoplanet pomocí metody deep ensemble. Avšak prediktivní nejistoty musí být spolehlivé. Proto jsme vytvořili metodu, která usnadňuje diagnostiku příčin možných problémů těchto prediktivních nejistot. Tato metoda využívá interpreter histogramu pravděpodobnostní integrální transformace k usnadnění této diagnostiky. Celkově tato disertační práce posouvá oblast aktivního hlubokého učení a vyhodnocování prediktivních nejistot s možnými aplikacemi přesahujícími rámec astronomie do jakékoli oblasti s velkými datovými množinami. There is a lot of data everywhere, on the internet, in science, etc. But unannotated data themselves are of little value. The goal of this dissertation is to improve active deep learning for eicient and reliable annotation of large data sets, with a particular emphasis on astronomical spectra. To validate the suitability of active deep learning for large data sets of astronomical spectra, we applied an active deep learning method to discovery of rare astronomical objects. This method, which combines a convolutional neural network with active learning, successfully discovered a number of new objects, even though we did not have a large and representative training set. The success of active deep learning depends on predictive uncertainties, so we next explored methods for quantifying them. We developed two probabilistic methods: one for predicting spectroscopic redshift using the Monte Carlo dropout and the other for predicting the atmospheric properties of exoplanets using the deep ensemble method. However, predictive uncertainties must be reliable. Therefore, we have developed a method that facilitates the diagnosis of the causes of potential problems with these predictive uncertainties. This method uses an interpreter of a probabilistic integral transform histogram to facilitate this diagnosis. Overall, this dissertation advances the field of active deep learning and predictive uncertainties evaluation with potential applications beyond astronomy to any field with large data sets.