Sémantický rozdíl pro nooteboky R
Semantic diff for R notebooks
Type of document
bakalářská prácebachelor thesis
Author
Volodymyr Plita
Supervisor
Donat-Bouillud Pierre
Opponent
Máj Petr
Field of study
Software Engineering 2021Study program
InformaticsInstitutions assigning rank
katedra softwarového inženýrstvíDefended
2025-06-23Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce se zabývá kritickou výzvou reprodukovatelnosti ve výpočetním výzkumu prováděném pomocí notebooků v jazyce R. Ačkoli notebooky v jazyce R způsobily revoluci ve vědeckých pracovních postupech integrací kódu, narativu a výsledků, jejich výstupy se často liší v různých prostředích kvůli závislosti na verzích knihoven, operačních systémech a časově závislých operacích. Tradiční nástroje pro porovnávání, jako je GNU Diff, nedokážou zachytit smysluplné rozdíly v dynamických výstupech, jako jsou grafy a statistické tabulky. Tento výzkum vyvíjí a hodnotí nástroj pro sémantické porovnávání speciálně navržený pro notebooky v jazyce R, který dokáže detekovat rozdíly nad rámec textového porovnání. Prostřednictvím komplexní analýzy programovacího jazyka R a ekosystému notebooků byl implementován nástroj, který počítá metriky podobnosti (včetně DSSIM a relativního rozdílu) pro výstupy, u kterých se předpokládá, že jsou sémanticky ekvivalentní. Hodnocení v různých výpočetních prostředích prokázalo schopnost nástroje identifikovat smysluplné rozdíly, které by konvenční textové porovnávání přehlédlo, zejména u složitých výstupů, jako jsou vizualizace dat a statistické tabulky. Navzdory jeho účinnosti stále existují příležitosti ke zlepšení výpočetní efektivity, zejména v rychlosti generování výstupů a optimalizaci výpočetní fáze shora dolů. Tato práce přispívá k vědě o reprodukovatelnosti tím, že umožňuje sofistikovanější porovnávání výstupů notebooků, zvyšuje transparentnost a spolehlivost ve výpočetním výzkumu. This thesis addresses the critical challenge of reproducibility in computational research conducted through R notebooks. While R notebooks have revolutionized scientific workflows by integrating code, narrative, and results, their outputs often vary across different execution environments due to dependencies on library versions, operating systems, and time-dependent operations. Traditional comparison tools like GNU Diff fail to capture meaningful differences in dynamic outputs such as plots and statistical tables. This research develops and evaluates a semantic diff tool specifically designed for R notebooks that can detect differences beyond textual comparison. Through comprehensive analysis of the R programming language and notebook ecosystem, a tool was implemented that computes similarity metrics (including DSSIM and relative difference) for outputs suspected to be semantically equivalent. Evaluation across varied computational environments demonstrated the tool's ability to identify meaningful differences that conventional text-based comparison would miss, particularly in complex outputs like data visualizations and statistical tables. Despite its effectiveness, opportunities remain for improving computational efficiency, particularly in output generation speed and optimization of the Top-Down computation phase. This work contributes to reproducibility science by enabling more sophisticated comparison of notebook outputs, advancing transparency and reliability in computational research.
Collections
- Bakalářské práce - 18102 [1873]