Využití velkých jazykových modelů v inženýringu proteinů

Matouš Soldát

Protein engineering with large language models

Type of document

diplomová práce
master thesis

Author

Matouš Soldát

Supervisor

Kléma Jiří

Opponent

Drchal Jan

Field of study

Bioinformatika

Study program

Lékařská elektronika a bioinformatika

Institutions assigning rank

katedra počítačů

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Cílem inženýringu proteinů je návrh proteinů s požadovanými vlastnostmi. Řízená evoluce je iterativní laboratorní proces návrhu takových proteinů pomocí iterativní syntézy nových variant proteinů a vyhodnocování míry požadované vlastnosti drahými a časově náročnými biochemickými experimenty. Metody strojového učení mohou pomoci s výběrem informativních a slibných variant k experimentálnímu ověření a tím zvýšit kvalitu objevených variant a snížit množství provedených experimentů. Cílem této práce je navrhnout efektivní způsob využití předučených proteinových modelů pro řízenou evoluci proteinů. Práce poskytuje rešerši existujících předučených proteinových modelů a jejich aplikací v proteinovém inženýrství. Dále poskytuje úvod do využití Bayesovské optimalizace pro řízenou evoluci proteinů. Následně jsou navrženy tři metody pro řízenou evoluci proteinů asistované strojovým učením, které jsou porovnány s klasickými metodami řízené evoluce i ostatními moderními metodami s asistencí strojového učení. Navržené metody využívají representaci proteinových sekvencí pomocí předučeného proteinového modelu. Nejslibnější z navržených metod, Bayesovká optimalizace v prostoru embeddingů (zkratkou BOES), kombinuje tuto vysoko-dimenzionální representaci s Bayesovskou optimalizací pomocí kernelu, který snižuje efektivní počet dimenzí na jednu. BOES překonává moderní metody regrese modelu o 17 % při zachování stejného množství provedených experimentů a může ušetřit 44 % nutných experimentů ve srovnání s metodami Bayesovké optimalizace s jinou informativní representací proteinových sekvencí.

The objective of protein engineering is to design proteins with desired properties. Directed evolution is an iterative laboratory process of designing such proteins by iteratively synthesizing new protein variants and evaluating their desired property with expensive and time-consuming biochemical screening. Machine learning methods can help select informative or promising variants for screening to increase the quality of screened variants and reduce the amount of necessary screening. The goal of this thesis is to suggest an effective way to exploit pre-trained protein language models in directed evolution. The thesis provides a review of existing pre-trained protein language models and their application in protein engineering, as well as an introduction to the application of Bayesian optimization for directed evolution. Afterward, three machine-learning-assisted methods for directed evolution are proposed and compared to classical methods of directed evolution and state-of-the-art machine-learning-assisted methods. The proposed methods exploit protein sequence representation extracted from a pre-trained protein language model. The most promising of the proposed methods, Bayesian optimization in embedding space (BOES), combines the high-dimensional representation with Bayesian optimization by limiting the effective number of dimensions to one with a custom kernel. BOES outperforms state-of-the-art model-regression methods by 17 % with the same screening effort and can save 44 % of the experimental burden in comparison to BO-based methods with a different informative protein sequence representation.