Predikce biosyntézy terpenů pomocí strojového učení
Machine-learning prediction of terpene biosynthesis
Type of document
bakalářská prácebachelor thesis
Author
Roman Bushuiev
Supervisor
Pluskal Tomáš
Opponent
Hrabáková Jitka
Field of study
Znalostní inženýrstvíStudy program
Informatika 2009Institutions assigning rank
katedra aplikované matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Biosyntéza v živých organismech se skládá z komplexních transformací molekul katalyzovaných enzymy. Ačkoli porozumění těmto biochemickým reakcím je zásadní pro moderní medicínu a strojové učení již prokázalo svou účinnost pro rozluštění velmi složitých problémů, predikce biosyntéz dosud nebyla studována. Dokonce i pro dobře definované reakce, jako je biosyntéza terpenů, velmi malé množství dosud charakterizovaných reakcí a komplikovanost jejich složek dělají problém zdánlivě neřešitelným. V této práci se zaměřuji na predikci biosyntézy seskviterpenů a navrhuji řešení nejprve snížením složitosti pomoci modelů strojového učení předtrénovaných na rozsáhlých databázích, a následovně využitím naučených vlastností na řešení primárního úkolu. Výsledky ukazují, že tento přístup umožňuje poměrně dobrou predikci reakcí biosyntézy seskviterpenů s použitím jen 315 trénovacích vzorků, a představuje tedy slibný směr pro další výzkum. Biosynthesis in living organisms consists of complex molecular transformations catalyzed by enzymes. Even though deep understanding of such biochemical reactions is essential for modern medicine and machine learning has already proven its efficiency in unraveling complex tasks, the prediction of biosynthesis has not been studied yet. Even for highly conserved reactions, such as terpene biosynthesis, the relatively small amount of reactions characterized to date and the complexity of their components make the problem seem infeasible. In the present work, I focus on the prediction of sesquiterpene biosynthesis and propose a solution by first reducing the problem complexity with machine learning models pre-trained on large databases and then transferring the learned features to the primary task. Results show that the introduced approach allows for reasonable prediction of sesquiterpene biosynthetic reactions using only 315 training samples, which makes it remarkably interesting for further study.
Collections
- Bakalářské práce - 18105 [240]