Efficient similarity calculation for RNA secondary structures
Efektivní výpočet podobnosti sekundárních struktur RNA
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Tato práce se zaobírá porovnáváním sekundárních struktur RNA pomocí mělkých neuronových sítí. Název nově vytvořené metody je Struc2Vec. Způsob výpočtu je založen na přepisu sekundárních struktur na slova, která jsou následně přepsána na vektory pomocí technologie Doc2vec. Pro fungování metody je nutné natrénovat model na strukturách, který lze poté využít k porovnávání s jinými strukturami. Trénování i predikce mají lineární časovou náročnost. Metoda dosáhla skoro 74% úspěšnosti při predikci mezi deseti typy struktur a skoro 96% úspěšnosti při porovnávání mezi dvěma typy sekundárních RNA struktur (eukaryoty a bakterie). Úspěšnost použitím klasických metod na stejných data-setech je 85 %, respektive 98 %. Metoda Struc2Vec nabízí alternativní možnost k porovnávání sekundárních struktur, která je vhodná v případě, že je potřeba zkrátit čas výpočtu porovnávání sekundárních struktur RNA.
This work focuses on comparison of secondary RNA structures using shallow neural networks. Name of newly developed method is Struc2Vec. Struc2Vec method is based on transforming secondary RNA structures into words, which are further transformed into vectors. The method can work only after training a model with secondary structures. The model is further used for comparing different secondary structures with already trained ones. Both model training and structure prediction work in linear time complexity. The method had nearly 74 % success rate on dataset with 10 different types of secondary structures and nearly 96 % on dataset of two types of structures. Compared to the standard methods, which had 85 %, respectively 98 % success rate. Struc2Vec method offers very good trade-off between speed and accuracy. Method is suitable for cases where computation time needs to be shortened significantly.
This work focuses on comparison of secondary RNA structures using shallow neural networks. Name of newly developed method is Struc2Vec. Struc2Vec method is based on transforming secondary RNA structures into words, which are further transformed into vectors. The method can work only after training a model with secondary structures. The model is further used for comparing different secondary structures with already trained ones. Both model training and structure prediction work in linear time complexity. The method had nearly 74 % success rate on dataset with 10 different types of secondary structures and nearly 96 % on dataset of two types of structures. Compared to the standard methods, which had 85 %, respectively 98 % success rate. Struc2Vec method offers very good trade-off between speed and accuracy. Method is suitable for cases where computation time needs to be shortened significantly.