Zobrazit minimální záznam

Hierarchical Semi-Sparse Cubes - scalable solution for combining dimensionally multi-modal big data



dc.contributor.advisorTvrdík Pavel
dc.contributor.authorJiří Nádvorník
dc.date.accessioned2024-08-30T23:47:43Z
dc.date.available2024-08-30T23:47:43Z
dc.date.issued2024-08-31
dc.identifierKOS-779033284805
dc.identifier.urihttp://hdl.handle.net/10467/117239
dc.description.abstractVzhledem k tomu, že Moorův zákon se vztahuje i na detektory, které data produkují, objem pozorovaných dat v astronomii se každý rok zhruba zdvojnásobuje. Důkazem je například nová Square Kilometer Array (SKA) astronomická přehlídka oblohy, která vyprodukuje zhruba 8.5 exabytů dat ve svých prvních 15 letech provozu, který začíná v roce 2027. Kapacita datových úložišť roste stejně rychle, stejně jako schopnost zpracovávat tyto data primárními analytickými nástroji. Kde přichází problém je schopnost kombinovat velká data z několika takovýchto detektorů. Vytěžit informace z těchto velkých dat je relativně snadné, ale odvozování nových znalostí na základě těchto informací je možné jen pokud se na ně díváme v kontextu. To vyžaduje kombinaci dat z několika zdrojů. V této dizertaci představujeme softwarové řešení „Hierarchical Semi-Sparse Cube“ (HiSS-Cube). Klade si za cíl masivně paralelní kombinaci a zpracování dimenzionálně multi-modálních velkých dat. Otestovali jsme škálovatelnost a efektivitu na astronomických velkých datech ze spektrometrických a fotometrických přehlídek Sloan Digital Sky Survey (SDSS). Ověřili jsme, že HiSS-Cube je omezen I/O propustností a I/O operacemi za sekundu paralelního file systému, na kterém software běží, tedy že škáluje lineárně s počtem I/O uzlů.cze
dc.description.abstractSince Moore`s law applies also to data detectors, the volume of data collected in astronomy doubles approximately every year. A prime example is the upcoming Square Kilometer Array (SKA) survey that will produce approximately~8.5 exabytes over the first 15 years of service, starting in the year 2027. Storage capacities for these data have grown as well, and primary analytical tools have also kept up. However, the tools for combining big data from several such detectors still lag behind. Finding interesting information in the big data is relatively easy, but inferring new knowledge based on this information is possible only when it is put into context. That requires to combine the information from multiple data sources. In this thesis, we present the Hierarchical Semi-Sparse Cube (HiSS-Cube) framework. It aims to provide highly parallel processing of combined dimensionally multi-modal big data. We tested the scalability and efficiency of HiSS-Cube on big astronomical spectroscopic and photometric data obtained from the Sloan Digital Sky Survey (SDSS). The performance of HiSS-Cube is bounded by the I/O bandwidth and I/O operations per second of the underlying parallel file system, and it scales linearly with the number of I/O nodes.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectbig datacze
dc.subjectmulti-modální datacze
dc.subjectvícerozměrná datacze
dc.subjectsemi-sparse datacze
dc.subjectHDF5cze
dc.subjectparalelníI/Ocze
dc.subjectastroinformatikacze
dc.subjectsouborový systém Lustrecze
dc.subjectbig dataeng
dc.subjectmulti-modal dataeng
dc.subjectmulti-dimensional dataeng
dc.subjectsemi-sparse dataeng
dc.subjectHDF5eng
dc.subjectparallelI/Oeng
dc.subjectastroinformaticseng
dc.subjectLustre file systemeng
dc.titleHierarchické Semi-Sparse Kostky - škálovatelné řešení pro kombinování dimenzionálně multi-modálních velkých datcze
dc.titleHierarchical Semi-Sparse Cubes - scalable solution for combining dimensionally multi-modal big dataeng
dc.typedisertační prácecze
dc.typedoctoral thesiseng
dc.contributor.refereeZeitouni Karine
theses.degree.disciplineInformatikacze
theses.degree.grantorkatedra počítačových systémůcze
theses.degree.programmeInformatikacze


Soubory tohoto záznamu






Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam