Posuzování plánů správy dat s využitím umělé inteligence

Matěj Frnka

AI-Based Evaluation of Data Management Plans (DMPs)

Type of document

diplomová práce
master thesis

Author

Matěj Frnka

Supervisor

Suchánek Marek

Opponent

Šenkýř David

Field of study

Znalostní inženýrství

Study program

Informatika

Institutions assigning rank

katedra aplikované matematiky

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Data management plány (DMP) jsou dokumenty, které popisují, jak jsou shromažďována, uchovávána a sdílena data. Správnost DMP se často posuzuje kontrolou nestrukturovaného textu podle otázek z DMP šablony - to je časově náročný proces náchylný k chybám. V této diplomové práci zkoumáme, jaké jsou možnosti využití strojového učení k automatickému vyhodnocení DMP. Specifikujeme konkrétní problém, který formalizujeme jako úlohu extractive question answering. Tato úloha mapuje každou otázku DMP šablony na příslušný text v DMP. Abychom mohli objektivně vyhodnotit různé přístupy, zorganizujeme sběr dat, díky kterým můžeme objektivně porovnat různé modely, jejich parametry a jejich dotrénování. Experimentujeme s velkými jazykovými modely, jako je closed-source GPT 4o-mini nebo open-weights Llama 3.2. Naše experimenty ukazují, že GPT 4o-mini překoná ostatní modely, ale s omezenou možností kontroly dat. Dotrénovaná verze modelu Llama 3.2 nabízí cenově přijatelnou alternativu, kterou lze provozovat na vlastní infrastruktuře, což je vhodné pro scénáře citlivé na ochranu osobních dat. Dále zveřejňujeme čtyři nové datové sady vytvořené v této práci: (1) lidmi anotovanou datovou sadu odpovědí na otázky ve skutečných DMP, (2) páry otázek a odpovědí shromážděné z DMP, (3) kolekci DMP s volným textem a (4) datovou sadu s páry otázek a odpovědí a syntetickým kontextem.

Data management plans (DMPs) are documents outlining how research data will be collected, preserved, and shared. Compliance with funder guidelines is often assessed by checking free-text DMPs against questions from DMP template - a time-consuming and error-prone process. This thesis explores how machine learning could be leveraged for automating DMP evaluation. We specify a concrete problem to solve and formalize it as extractive question answering task, mapping each DMP template question to the relevant text in a DMP. To objectively evaluate different approaches, we crowdsource a dataset and use it to compare different models, fine-tunings and inference parameters. We experiment with Large Language Models (LLMs) such as closed source GPT 4o-mini or open-weights Llama 3.2, our experiments show that GPT 4o-mini outperforms other baseline models, but with limited data control. Fine-tuned versions of Llama offer a cost-effective open-weights alternative that can be self-hosted, making them attractive for privacy-sensitive scenarios. We additionally present four publicly available datasets compiled in this thesis: (1) a human-annotated dataset of answers to questions in real DMPs, (2) a question-and-answer pairs gathered from DMPs, (3) a collection of free-text DMPs, and (4) a dataset with question-and-answer pairs and synthetic context.