Hierarchické Semi-Sparse Kostky - škálovatelné řešení pro kombinování dimenzionálně multi-modálních velkých dat

Vzhledem k tomu, že Moorův zákon se vztahuje i na detektory, které data produkují, objem pozorovaných dat v astronomii se každý rok zhruba zdvojnásobuje. Důkazem je například nová Square Kilometer Array (SKA) astronomická přehlídka oblohy, která vyprodukuje zhruba 8.5 exabytů dat ve svých prvních 15 letech provozu, který začíná v roce 2027. Kapacita datových úložišť roste stejně rychle, stejně jako schopnost zpracovávat tyto data primárními analytickými nástroji. Kde přichází problém je schopnost kombinovat velká data z několika takovýchto detektorů. Vytěžit informace z těchto velkých dat je relativně snadné, ale odvozování nových znalostí na základě těchto informací je možné jen pokud se na ně díváme v kontextu. To vyžaduje kombinaci dat z několika zdrojů. V této dizertaci představujeme softwarové řešení „Hierarchical Semi-Sparse Cube“ (HiSS-Cube). Klade si za cíl masivně paralelní kombinaci a zpracování dimenzionálně multi-modálních velkých dat. Otestovali jsme škálovatelnost a efektivitu na astronomických velkých datech ze spektrometrických a fotometrických přehlídek Sloan Digital Sky Survey (SDSS). Ověřili jsme, že HiSS-Cube je omezen I/O propustností a I/O operacemi za sekundu paralelního file systému, na kterém software běží, tedy že škáluje lineárně s počtem I/O uzlů.

Since Moore`s law applies also to data detectors, the volume of data collected in astronomy doubles approximately every year. A prime example is the upcoming Square Kilometer Array (SKA) survey that will produce approximately~8.5 exabytes over the first 15 years of service, starting in the year 2027. Storage capacities for these data have grown as well, and primary analytical tools have also kept up. However, the tools for combining big data from several such detectors still lag behind. Finding interesting information in the big data is relatively easy, but inferring new knowledge based on this information is possible only when it is put into context. That requires to combine the information from multiple data sources. In this thesis, we present the Hierarchical Semi-Sparse Cube (HiSS-Cube) framework. It aims to provide highly parallel processing of combined dimensionally multi-modal big data. We tested the scalability and efficiency of HiSS-Cube on big astronomical spectroscopic and photometric data obtained from the Sloan Digital Sky Survey (SDSS). The performance of HiSS-Cube is bounded by the I/O bandwidth and I/O operations per second of the underlying parallel file system, and it scales linearly with the number of I/O nodes.

Keywords

big data, multi-modální data, vícerozměrná data, semi-sparse data, HDF5, paralelníI/O, astroinformatika, souborový systém Lustre, big data, multi-modal data, multi-dimensional data, semi-sparse data, HDF5, parallelI/O, astroinformatics, Lustre file system

Permanent link

http://hdl.handle.net/10467/117239

Rights/License

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

Collections

Doctoral Theses - 18000

Full item page

Hierarchical Semi-Sparse Cubes - scalable solution for combining dimensionally multi-modal big data