Hierarchical Semi-Sparse Cubes - scalable solution for combining dimensionally multi-modal big data
Hierarchické Semi-Sparse Kostky - škálovatelné řešení pro kombinování dimenzionálně multi-modálních velkých dat
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
Abstract
Vzhledem k tomu, že Moorův zákon se vztahuje i na detektory, které data produkují, objem pozorovaných dat v astronomii se každý rok zhruba zdvojnásobuje. Důkazem je například nová Square Kilometer Array (SKA) astronomická přehlídka oblohy, která vyprodukuje zhruba 8.5 exabytů dat ve svých prvních 15 letech provozu, který začíná v roce 2027. Kapacita datových úložišť roste stejně rychle, stejně jako schopnost zpracovávat tyto data primárními analytickými nástroji. Kde přichází problém je schopnost kombinovat velká data z několika takovýchto detektorů. Vytěžit informace z těchto velkých dat je relativně snadné, ale odvozování nových znalostí na základě těchto informací je možné jen pokud se na ně díváme v kontextu. To vyžaduje kombinaci dat z několika zdrojů. V této dizertaci představujeme softwarové řešení „Hierarchical Semi-Sparse Cube“ (HiSS-Cube). Klade si za cíl masivně paralelní kombinaci a zpracování dimenzionálně multi-modálních velkých dat. Otestovali jsme škálovatelnost a efektivitu na astronomických velkých datech ze spektrometrických a fotometrických přehlídek Sloan Digital Sky Survey (SDSS). Ověřili jsme, že HiSS-Cube je omezen I/O propustností a I/O operacemi za sekundu paralelního file systému, na kterém software běží, tedy že škáluje lineárně s počtem I/O uzlů.
Since Moore`s law applies also to data detectors, the volume of data collected in astronomy doubles approximately every year. A prime example is the upcoming Square Kilometer Array (SKA) survey that will produce approximately~8.5 exabytes over the first 15 years of service, starting in the year 2027. Storage capacities for these data have grown as well, and primary analytical tools have also kept up. However, the tools for combining big data from several such detectors still lag behind. Finding interesting information in the big data is relatively easy, but inferring new knowledge based on this information is possible only when it is put into context. That requires to combine the information from multiple data sources. In this thesis, we present the Hierarchical Semi-Sparse Cube (HiSS-Cube) framework. It aims to provide highly parallel processing of combined dimensionally multi-modal big data. We tested the scalability and efficiency of HiSS-Cube on big astronomical spectroscopic and photometric data obtained from the Sloan Digital Sky Survey (SDSS). The performance of HiSS-Cube is bounded by the I/O bandwidth and I/O operations per second of the underlying parallel file system, and it scales linearly with the number of I/O nodes.
Since Moore`s law applies also to data detectors, the volume of data collected in astronomy doubles approximately every year. A prime example is the upcoming Square Kilometer Array (SKA) survey that will produce approximately~8.5 exabytes over the first 15 years of service, starting in the year 2027. Storage capacities for these data have grown as well, and primary analytical tools have also kept up. However, the tools for combining big data from several such detectors still lag behind. Finding interesting information in the big data is relatively easy, but inferring new knowledge based on this information is possible only when it is put into context. That requires to combine the information from multiple data sources. In this thesis, we present the Hierarchical Semi-Sparse Cube (HiSS-Cube) framework. It aims to provide highly parallel processing of combined dimensionally multi-modal big data. We tested the scalability and efficiency of HiSS-Cube on big astronomical spectroscopic and photometric data obtained from the Sloan Digital Sky Survey (SDSS). The performance of HiSS-Cube is bounded by the I/O bandwidth and I/O operations per second of the underlying parallel file system, and it scales linearly with the number of I/O nodes.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.