Automated Protein Annotation with Integration of Gene Ontology Inter-Relationships
Automatická anotace proteinů s využitím hierarchických vztahů genové ontologie
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Automatizace predikce funkce proteinů je nezbytná pro efektivní anotaci rozsáhlých genomických dat. Tato práce představuje nový přístup k propojení konvoluční neuronové sítě s transferovým učením za účelem přiřazení termů Genové Ontologie (GO) sekvencím proteinů. GO termy jsou uspořádány do cest v grafu GO podle jejich hierarchické vzdálenosti od kořene grafu, a konvoluční síť je poté zpracovává jeden po druhém. Hierarchické vztahy mezi jednotlivými GO termy jsou na každé úrovni využity k významné redukci datasetu, což vede k významnému časovému zefektivnění procesu trénování. Navržená metoda je porovnána s řadou stávajících metod pro automatickou anotaci funkce proteinů.
Automated protein function prediction is essential for efficiently annotating large-scale genomic data. This thesis proposes a novel approach, which integrates a convolutional neural network with transfer learning to assign Gene Ontology (GO) terms to protein sequences. The convolutional neural network is designed to process GO terms arranged in GO graph paths individually according to their hierarchical distance from the root term. The hierarchical relationships between GO terms are leveraged to reduce the dataset at every level, thereby significantly streamlining the training process. To assess the efficacy of the proposed method, it is benchmarked against a range of existing approaches for automated protein function annotation.
Automated protein function prediction is essential for efficiently annotating large-scale genomic data. This thesis proposes a novel approach, which integrates a convolutional neural network with transfer learning to assign Gene Ontology (GO) terms to protein sequences. The convolutional neural network is designed to process GO terms arranged in GO graph paths individually according to their hierarchical distance from the root term. The hierarchical relationships between GO terms are leveraged to reduce the dataset at every level, thereby significantly streamlining the training process. To assess the efficacy of the proposed method, it is benchmarked against a range of existing approaches for automated protein function annotation.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.