ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Information Technology
  • Department of Software Engineering
  • Bachelor Theses - 18102
  • View Item
  • Czech Technical University in Prague
  • Faculty of Information Technology
  • Department of Software Engineering
  • Bachelor Theses - 18102
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Sémantický rozdíl pro nooteboky R

Semantic diff for R notebooks

Type of document
bakalářská práce
bachelor thesis
Author
Volodymyr Plita
Supervisor
Donat-Bouillud Pierre
Opponent
Máj Petr
Field of study
Software Engineering 2021
Study program
Informatics
Institutions assigning rank
katedra softwarového inženýrství
Defended
2025-06-23



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Tato práce se zabývá kritickou výzvou reprodukovatelnosti ve výpočetním výzkumu prováděném pomocí notebooků v jazyce R. Ačkoli notebooky v jazyce R způsobily revoluci ve vědeckých pracovních postupech integrací kódu, narativu a výsledků, jejich výstupy se často liší v různých prostředích kvůli závislosti na verzích knihoven, operačních systémech a časově závislých operacích. Tradiční nástroje pro porovnávání, jako je GNU Diff, nedokážou zachytit smysluplné rozdíly v dynamických výstupech, jako jsou grafy a statistické tabulky. Tento výzkum vyvíjí a hodnotí nástroj pro sémantické porovnávání speciálně navržený pro notebooky v jazyce R, který dokáže detekovat rozdíly nad rámec textového porovnání. Prostřednictvím komplexní analýzy programovacího jazyka R a ekosystému notebooků byl implementován nástroj, který počítá metriky podobnosti (včetně DSSIM a relativního rozdílu) pro výstupy, u kterých se předpokládá, že jsou sémanticky ekvivalentní. Hodnocení v různých výpočetních prostředích prokázalo schopnost nástroje identifikovat smysluplné rozdíly, které by konvenční textové porovnávání přehlédlo, zejména u složitých výstupů, jako jsou vizualizace dat a statistické tabulky. Navzdory jeho účinnosti stále existují příležitosti ke zlepšení výpočetní efektivity, zejména v rychlosti generování výstupů a optimalizaci výpočetní fáze shora dolů. Tato práce přispívá k vědě o reprodukovatelnosti tím, že umožňuje sofistikovanější porovnávání výstupů notebooků, zvyšuje transparentnost a spolehlivost ve výpočetním výzkumu.
 
This thesis addresses the critical challenge of reproducibility in computational research conducted through R notebooks. While R notebooks have revolutionized scientific workflows by integrating code, narrative, and results, their outputs often vary across different execution environments due to dependencies on library versions, operating systems, and time-dependent operations. Traditional comparison tools like GNU Diff fail to capture meaningful differences in dynamic outputs such as plots and statistical tables. This research develops and evaluates a semantic diff tool specifically designed for R notebooks that can detect differences beyond textual comparison. Through comprehensive analysis of the R programming language and notebook ecosystem, a tool was implemented that computes similarity metrics (including DSSIM and relative difference) for outputs suspected to be semantically equivalent. Evaluation across varied computational environments demonstrated the tool's ability to identify meaningful differences that conventional text-based comparison would miss, particularly in complex outputs like data visualizations and statistical tables. Despite its effectiveness, opportunities remain for improving computational efficiency, particularly in output generation speed and optimization of the Top-Down computation phase. This work contributes to reproducibility science by enabling more sophisticated comparison of notebook outputs, advancing transparency and reliability in computational research.
 
URI
http://hdl.handle.net/10467/124321
View/Open
ROZHODNUTI (555.4Kb)
POSUDEK (44.20Kb)
POSUDEK (43.57Kb)
Collections
  • Bakalářské práce - 18102 [1873]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV