Enhancing Protein-Protein Docking Using Graph Neural Network

Vylepšení protein-proteinového dokování pomocí grafové neuronové sítě

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Proteinové dokování představuje zásadní výzvu v biologickém a lékařském výzkumu, s širokým uplatněním v objevování léčiv a vývoji vakcín. Tato práce představuje PPIPoseRank, špičkovou metodu pro skórování dokovaných poloh proteinů, která zvyšuje užitečnost strojového učení při studiu a navrhování proteinových interakcí. Vyvinutá metoda PPIPoseRank jemně dolaďuje předtrénovaný model strojového učení PPIformer, navržený pro analýzu protein-proteinových interakcí, aby efektivně hodnotila dokované polohy. Model je hodnocen pomocí standardních benchmarků a metrik pro proteinové dokování, kde prokazuje výrazně lepší výsledky ve srovnání s osvědčenými metodami. Pozoruhodné je, že PPIPoseRank dosahuje špičkových výsledků čistě datově řízeným přístupem, čímž eliminuje potřebu výpočetně náročných předběžných výpočtů interakčních energií, které vyžadovaly předchozí metody. Ablativní studie klíčových komponent zdůrazňují důležitá designová rozhodnutí, jako je použití samo-učeného předtrénování, robustní ztrátová funkce založená na hodnocení pořadí, pečlivá příprava vstupních proteinových struktur a eliminace úniku dat během hodnocení modelu. Silný výkon PPIPoseRankna standardních benchmarcích ukazuje jeho potenciál pro praktické využití ve zdravotnictví.

Protein docking is a fundamental challenge in biological and medical research, with applications in drug discovery and vaccine development. This thesis introduces PPIPoseRank, a state-of-the-art method for scoring protein-protein docking poses, enhancing the utility of machine learning in studying and de- signing protein interactions. The developed PPIPoseRankfine-tunes PPIformer, a pre-trained machine learning model for protein-protein interactions, to score docking poses. The model is evaluated using standard protein docking benchmarks and metrics, demonstrating superior performance compared to well established baseline methods. Remarkably, PPIPoseRank achieves state-of-the-art results in a purely data-driven manner, bypassing the need for computationally intensive pre-calculations of interaction energies required by prior approaches. Ablation studies of key components highlight critical design decisions, such as the use of self-supervised pre-training, a robust ranking-based loss function, careful preparation of input protein structures, and the elimination of data leakage during model evaluation. The strong performance of PPIPoseRank on standard benchmarks demonstrates its potential in real-world application in healthcare.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By