Reservoir Computing Framework v Apache Flink
Reservoir Computing Framework in Apache Flink
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Hynek Noll
Vedoucí práce
Basterrech Sebastian
Oponent práce
Drchal Jan
Studijní obor
SoftwareStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Zpracovávání datových proudů je populární metodou pro strojové učení díky potřebě analyzovat velké množství dat v reálném čase. Perspektivními se stávají škálovatelná řešení používající počítačové clustery a zpracovávání dat v reálném čase. Rekurentní neuronové sítě vyžadují velké množství dat k trénování. V případě Reservoir Computing frameworku jsou tyto nároky snížené. Reservoir Computing přináší specifický způsob konstrukce rekurentních neuronových sítí, kdy první část (reservoir) je netrénovaná a druhá část (readout) typicky využívá lineárního modelování. Apache Flink je škálovatelný framework zaměřený na stream processing (zpracovávání datových proudů). Flink umožňuje zvýšenou odolnost vůči chybám (např. pomocí tzv. "exactly-once semantics") a nízkou latenci díky zpracovávání prvků datového proudu individuálně. V rámci této práce jsme vyvinuli novou, rozšiřitelnou knihovnu Reservoir Computing funkcionalit pro Apache Flink. Představíme teorii v pozadí a provedené experimenty. Stream processing for Machine Learning has become popular with the need to analyze large amounts of data in real-time. The focus is shifting to scalable solutions using clusters and processing the data in real-time. Recurrent Neural Networks are expensive to train (require large amounts of data). These requirements are reduced when using the Reservoir Computing framework. Reservoir Computing introduces a specific paradigm that the first part (reservoir) of a Recurrent Neural Network is left untrained, and the second part (readout) focuses on linear modelling. Apache Flink is a scalable stream processing framework. Flink can provide fault-tolerance guarantees (such as exactly-once semantics) and low latency thanks to processing the stream records individually. We've developed a new, extensible Reservoir Computing library in Apache Flink. In this work, we present the theory behind it and the performed experiments.
Kolekce
- Bakalářské práce - 13136 [1056]