Samořízené strojové učení pro interpretaci molekulárních dat z hmotnostní spektrometrie
Self-supervised machine learning for the interpretation of molecular mass spectrometry data
Typ dokumentu
diplomová prácemaster thesis
Autor
Roman Bushuiev
Vedoucí práce
Pluskal Tomáš
Oponent práce
Kalvoda Tomáš
Studijní obor
Znalostní inženýrstvíStudijní program
InformatikaInstituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Objevování nových molekul je zásadní pro vědecký pokrok v biologických vědách a pro výzkum nových léčiv. Doposud však bylo popsáno méně než deset procent chemikální přítomných v lidském těle nebo v celé rostlinné říši. Hmotnostní spektrometrie je nejpopulárnější analytická technika pro detekci nových molekulárních struktur. Avšak kvůli složitosti experimentálních dat dokáží současné výpočetní metody interpretovat pouze nepatrnou část z dostupných hmotnostních spekter. V této práci představujeme nový přístup k dekódování hmotnosně-spektrometrických dat. Zatímco stávající nástroje se spoléhají na lidskou expertizu nebo na anotované referenční knihovny, naše metoda umožňuje extrakci molekulárních informací přímo z experimentálních měření na základě samořízeného učení. Konkrétně, vyvinuli jsme neuronovou síť založenou na Transformeru a zkompilovali nové datasety MSV$^n$ obsahující 700 milionů neanotovaných hmotnostních spekter. Ukazujeme, že model trénovaný na MSV$^n$ pomocí syntetických úloh, jako je například predikce maskovaných částí vstupních spekter, se sám naučil různé vlastnosti molekulárních struktur. Tyto neurální reprezentace hmotnostních spekter označujeme jako \textsc{DreaMS} (Deep Representations Empowering the Annotation of Mass Spectra) a ukazujeme, že se samostatně organizuzjí do bohatých molekulárních sítí a přitom odhalují nové druhy znalostí, nedosažitelné předchozími metodami. Získané \linebreak výsledky potvrzují potenciál samořízeného učení posunout paradigma výpočetní hmotnostní spektrometrie, a pokládají tak solidní základ pro budoucí výzkum v této oblasti. Discovery of new molecules is crucial for scientific progress in life sciences and in drug discovery. Yet, currently, less than ten percent of chemicals have been uncovered within the human body as well as in the entire plant kingdom. Mass spectrometry is the most popular analytical technique for detecting novel molecular structures. However, due to the complexity of experimental data, current computational methods can interpret only a tiny fraction of available mass spectra. In this work, we introduce a novel approach for deciphering mass spectral data. While existing tools rely on human expertise or annotated reference libraries, our method enables extraction of molecular information directly from raw experimental measurements using self-supervised deep learning. Specifically, we developed a Transformer-based neural network and compiled new MSV$^n$ datasets comprising 700 million unannotated mass spectra. We demonstrate that the model trained on MSV$^n$ using artificial annotation-free objectives, such as predicting masked portions of input spectra, learns diverse properties of molecular structures. We term these neural representations of mass spectra as \textsc{DreaMS} (Deep Representations Empowering the Annotation of Mass Spectra) and show that they are unconditionally organized in rich molecular networks, revealing new knowledge unattainable by previous methods. The obtained results confirm the potential of self-supervised learning to shift the paradigm of computational mass spectrometry and, therefore, lay a solid groundwork for future research in this direction.
Kolekce
- Diplomové práce - 18105 [164]