Zobrazit minimální záznam

Protein engineering with large language models



dc.contributor.advisorKléma Jiří
dc.contributor.authorMatouš Soldát
dc.date.accessioned2024-06-19T09:57:14Z
dc.date.available2024-06-19T09:57:14Z
dc.date.issued2024-06-18
dc.identifierKOS-1243609041605
dc.identifier.urihttp://hdl.handle.net/10467/115759
dc.description.abstractCílem inženýringu proteinů je návrh proteinů s požadovanými vlastnostmi. Řízená evoluce je iterativní laboratorní proces návrhu takových proteinů pomocí iterativní syntézy nových variant proteinů a vyhodnocování míry požadované vlastnosti drahými a časově náročnými biochemickými experimenty. Metody strojového učení mohou pomoci s výběrem informativních a slibných variant k experimentálnímu ověření a tím zvýšit kvalitu objevených variant a snížit množství provedených experimentů. Cílem této práce je navrhnout efektivní způsob využití předučených proteinových modelů pro řízenou evoluci proteinů. Práce poskytuje rešerši existujících předučených proteinových modelů a jejich aplikací v proteinovém inženýrství. Dále poskytuje úvod do využití Bayesovské optimalizace pro řízenou evoluci proteinů. Následně jsou navrženy tři metody pro řízenou evoluci proteinů asistované strojovým učením, které jsou porovnány s klasickými metodami řízené evoluce i ostatními moderními metodami s asistencí strojového učení. Navržené metody využívají representaci proteinových sekvencí pomocí předučeného proteinového modelu. Nejslibnější z navržených metod, Bayesovká optimalizace v prostoru embeddingů (zkratkou BOES), kombinuje tuto vysoko-dimenzionální representaci s Bayesovskou optimalizací pomocí kernelu, který snižuje efektivní počet dimenzí na jednu. BOES překonává moderní metody regrese modelu o 17 % při zachování stejného množství provedených experimentů a může ušetřit 44 % nutných experimentů ve srovnání s metodami Bayesovké optimalizace s jinou informativní representací proteinových sekvencí.cze
dc.description.abstractThe objective of protein engineering is to design proteins with desired properties. Directed evolution is an iterative laboratory process of designing such proteins by iteratively synthesizing new protein variants and evaluating their desired property with expensive and time-consuming biochemical screening. Machine learning methods can help select informative or promising variants for screening to increase the quality of screened variants and reduce the amount of necessary screening. The goal of this thesis is to suggest an effective way to exploit pre-trained protein language models in directed evolution. The thesis provides a review of existing pre-trained protein language models and their application in protein engineering, as well as an introduction to the application of Bayesian optimization for directed evolution. Afterward, three machine-learning-assisted methods for directed evolution are proposed and compared to classical methods of directed evolution and state-of-the-art machine-learning-assisted methods. The proposed methods exploit protein sequence representation extracted from a pre-trained protein language model. The most promising of the proposed methods, Bayesian optimization in embedding space (BOES), combines the high-dimensional representation with Bayesian optimization by limiting the effective number of dimensions to one with a custom kernel. BOES outperforms state-of-the-art model-regression methods by 17 % with the same screening effort and can save 44 % of the experimental burden in comparison to BO-based methods with a different informative protein sequence representation.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectinženýring proteinůcze
dc.subjectřízená evolucecze
dc.subjectvelké jazykové modelycze
dc.subjectembedding sekvencícze
dc.subjectBayesovská optimalizacecze
dc.subjectprotein engineeringeng
dc.subjectdirected evolutioneng
dc.subjectlarge language modelseng
dc.subjectsequence embeddingeng
dc.subjectBayesian optimizationeng
dc.titleVyužití velkých jazykových modelů v inženýringu proteinůcze
dc.titleProtein engineering with large language modelseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeDrchal Jan
theses.degree.disciplineBioinformatikacze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeLékařská elektronika a bioinformatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam