ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Information Technology
  • Departments
  • Department of Applied Mathematics
  • Master Theses - 18105
  • View Item
  • Czech Technical University in Prague
  • Faculty of Information Technology
  • Departments
  • Department of Applied Mathematics
  • Master Theses - 18105
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Posuzování plánů správy dat s využitím umělé inteligence

AI-Based Evaluation of Data Management Plans (DMPs)

Type of document
diplomová práce
master thesis
Author
Matěj Frnka
Supervisor
Suchánek Marek
Opponent
Šenkýř David
Field of study
Znalostní inženýrství
Study program
Informatika
Institutions assigning rank
katedra aplikované matematiky



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Data management plány (DMP) jsou dokumenty, které popisují, jak jsou shromažďována, uchovávána a sdílena data. Správnost DMP se často posuzuje kontrolou nestrukturovaného textu podle otázek z DMP šablony - to je časově náročný proces náchylný k chybám. V této diplomové práci zkoumáme, jaké jsou možnosti využití strojového učení k automatickému vyhodnocení DMP. Specifikujeme konkrétní problém, který formalizujeme jako úlohu extractive question answering. Tato úloha mapuje každou otázku DMP šablony na příslušný text v DMP. Abychom mohli objektivně vyhodnotit různé přístupy, zorganizujeme sběr dat, díky kterým můžeme objektivně porovnat různé modely, jejich parametry a jejich dotrénování. Experimentujeme s velkými jazykovými modely, jako je closed-source GPT 4o-mini nebo open-weights Llama 3.2. Naše experimenty ukazují, že GPT 4o-mini překoná ostatní modely, ale s omezenou možností kontroly dat. Dotrénovaná verze modelu Llama 3.2 nabízí cenově přijatelnou alternativu, kterou lze provozovat na vlastní infrastruktuře, což je vhodné pro scénáře citlivé na ochranu osobních dat. Dále zveřejňujeme čtyři nové datové sady vytvořené v této práci: (1) lidmi anotovanou datovou sadu odpovědí na otázky ve skutečných DMP, (2) páry otázek a odpovědí shromážděné z DMP, (3) kolekci DMP s volným textem a (4) datovou sadu s páry otázek a odpovědí a syntetickým kontextem.
 
Data management plans (DMPs) are documents outlining how research data will be collected, preserved, and shared. Compliance with funder guidelines is often assessed by checking free-text DMPs against questions from DMP template - a time-consuming and error-prone process. This thesis explores how machine learning could be leveraged for automating DMP evaluation. We specify a concrete problem to solve and formalize it as extractive question answering task, mapping each DMP template question to the relevant text in a DMP. To objectively evaluate different approaches, we crowdsource a dataset and use it to compare different models, fine-tunings and inference parameters. We experiment with Large Language Models (LLMs) such as closed source GPT 4o-mini or open-weights Llama 3.2, our experiments show that GPT 4o-mini outperforms other baseline models, but with limited data control. Fine-tuned versions of Llama offer a cost-effective open-weights alternative that can be self-hosted, making them attractive for privacy-sensitive scenarios. We additionally present four publicly available datasets compiled in this thesis: (1) a human-annotated dataset of answers to questions in real DMPs, (2) a question-and-answer pairs gathered from DMPs, (3) a collection of free-text DMPs, and (4) a dataset with question-and-answer pairs and synthetic context.
 
URI
http://hdl.handle.net/10467/122627
View/Open
PLNY_TEXT (1.643Mb)
PRILOHA (4.139Mb)
POSUDEK (51.74Kb)
POSUDEK (53.09Kb)
Collections
  • Diplomové práce - 18105 [235]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV