Show simple item record

AI-Based Evaluation of Data Management Plans (DMPs)



dc.contributor.advisorSuchánek Marek
dc.contributor.authorMatěj Frnka
dc.date.accessioned2025-06-06T09:52:52Z
dc.date.available2025-06-06T09:52:52Z
dc.date.issued2025-06-05
dc.identifierKOS-1243582215605
dc.identifier.urihttp://hdl.handle.net/10467/122627
dc.description.abstractData management plány (DMP) jsou dokumenty, které popisují, jak jsou shromažďována, uchovávána a sdílena data. Správnost DMP se často posuzuje kontrolou nestrukturovaného textu podle otázek z DMP šablony - to je časově náročný proces náchylný k chybám. V této diplomové práci zkoumáme, jaké jsou možnosti využití strojového učení k automatickému vyhodnocení DMP. Specifikujeme konkrétní problém, který formalizujeme jako úlohu extractive question answering. Tato úloha mapuje každou otázku DMP šablony na příslušný text v DMP. Abychom mohli objektivně vyhodnotit různé přístupy, zorganizujeme sběr dat, díky kterým můžeme objektivně porovnat různé modely, jejich parametry a jejich dotrénování. Experimentujeme s velkými jazykovými modely, jako je closed-source GPT 4o-mini nebo open-weights Llama 3.2. Naše experimenty ukazují, že GPT 4o-mini překoná ostatní modely, ale s omezenou možností kontroly dat. Dotrénovaná verze modelu Llama 3.2 nabízí cenově přijatelnou alternativu, kterou lze provozovat na vlastní infrastruktuře, což je vhodné pro scénáře citlivé na ochranu osobních dat. Dále zveřejňujeme čtyři nové datové sady vytvořené v této práci: (1) lidmi anotovanou datovou sadu odpovědí na otázky ve skutečných DMP, (2) páry otázek a odpovědí shromážděné z DMP, (3) kolekci DMP s volným textem a (4) datovou sadu s páry otázek a odpovědí a syntetickým kontextem.cze
dc.description.abstractData management plans (DMPs) are documents outlining how research data will be collected, preserved, and shared. Compliance with funder guidelines is often assessed by checking free-text DMPs against questions from DMP template - a time-consuming and error-prone process. This thesis explores how machine learning could be leveraged for automating DMP evaluation. We specify a concrete problem to solve and formalize it as extractive question answering task, mapping each DMP template question to the relevant text in a DMP. To objectively evaluate different approaches, we crowdsource a dataset and use it to compare different models, fine-tunings and inference parameters. We experiment with Large Language Models (LLMs) such as closed source GPT 4o-mini or open-weights Llama 3.2, our experiments show that GPT 4o-mini outperforms other baseline models, but with limited data control. Fine-tuned versions of Llama offer a cost-effective open-weights alternative that can be self-hosted, making them attractive for privacy-sensitive scenarios. We additionally present four publicly available datasets compiled in this thesis: (1) a human-annotated dataset of answers to questions in real DMPs, (2) a question-and-answer pairs gathered from DMPs, (3) a collection of free-text DMPs, and (4) a dataset with question-and-answer pairs and synthetic context.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectData management plancze
dc.subjectDMPcze
dc.subjectstrojové učenícze
dc.subjectvelké jazykové modelycze
dc.subjectextractive question answeringcze
dc.subjectvyhodnocení DMPcze
dc.subjectautomatizované vyhodnocenícze
dc.subjectData management planeng
dc.subjectDMPeng
dc.subjectmachine learningeng
dc.subjectlarge language modelseng
dc.subjectextractive question answeringeng
dc.subjectDMP evaluationeng
dc.subjectautomated evaluationeng
dc.titlePosuzování plánů správy dat s využitím umělé inteligencecze
dc.titleAI-Based Evaluation of Data Management Plans (DMPs)eng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeŠenkýř David
theses.degree.disciplineZnalostní inženýrstvícze
theses.degree.grantorkatedra aplikované matematikycze
theses.degree.programmeInformatikacze


Files in this item





This item appears in the following Collection(s)

Show simple item record