Detekce odchylek mimo distribuci hmotnostních spekter z plynového chromatografu
Out-of-Distribution Detection in Gas Chromatography Mass Spectrometry Data
Typ dokumentu
diplomová prácemaster thesis
Autor
Pavel Linder
Vedoucí práce
Špetlík Radim
Oponent práce
Franc Vojtěch
Studijní obor
Počítačové vidění a digitální obrazStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Analýza chemických sloučenin je zajímavý a důležitý problém. Nedávno se ukázalo, že výstup z analytického chemického přístroje odhalující fyzikální vlastnosti plynu je vhodný pro úlohu klasifikace pohlaví a ověření identity. Správná klasifikace konkrétních chemických sloučenin přítomných ve vzorku plynu je pro uvedené úlohy klíčová. Klasifikace však do značné míry závisí na proprietárním softwaru s vysokou mírou chybovosti a vyžaduje ruční opravu, která představuje náročný úkol. V této práci se zabýváme klasifikací chemických sloučenin s pomocí detekce odchylek (anglicky OOD detection). Tyto detektory předpokládají, že existuje rozdělení, které reprezentuje vzorek tréninkových tříd, a detekují vzorky, které do tohoto rozdělení nepatří. Detekci odchylek používáme k odfiltrování chemických sloučenin, které nepřispívají k řešení úloh klasifikace pohlaví a ověřování identity. Experimentujeme s metodami detekce na: (i) souboru chemických sloučenin s ručně ověřenými popisky 70 sloučenin, 334 vzorků pro každou sloučeninu, a (ii) testovacím měření bez popisků s 720000 vzorky. Vzhledem k předem definované množině chemických sloučenin, která je malá ve srovnání s množinou všech sloučenin, které se mohou objevit ve vzorku plynu, ukazujeme, že detekce odchylek je vhodnou metodou pro odfiltrování chemických sloučenin, které nepřispívají k řešení úkolu analýzy lidského pachu. Chemical compound analysis is an interesting and important problem. Recently, it has been shown that an output of an analytical chemistry tool revealing physical properties of a gas is suitable for gender classification, and identity verification tasks. Correct classification of particular chemical compounds present in a gas sample is crucial for the mentioned tasks. However, the classification heavily relies on proprietary software with high error rate requiring manual correction, which is a cumbersome task. In this thesis, we apply Out-Of-Distribution (OOD) methods to detect chemical compounds that are not informative for human scent analysis tasks. OOD detectors assume that there exists a distribution underlying the training classes samples, and detect samples not belonging to that distribution. We use the OOD detection to filter out chemical compounds that do not contribute to solving the gender classification, and identity verification tasks. We experiment with 8 OOD detection methods on: (i) chemical compounds dataset with manually checked labels of 70 compounds, 334 samples for each compound, and (ii) a single test measurement without ground-truth labels with 720000 samples. Given a predefined set of chemical compounds, which is small compared to the set of all compounds that may appear in a gas sample, we show that the OOD detection is a suitable method for filtering out chemical compounds not contributing to human scent analysis tasks.
Kolekce
- Diplomové práce - 13133 [474]