Reservoir Computing Framework v Apache Flink

Hynek Noll

Reservoir Computing Framework in Apache Flink

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Hynek Noll

Vedoucí práce

Basterrech Sebastian

Oponent práce

Drchal Jan

Studijní obor

Software

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Zpracovávání datových proudů je populární metodou pro strojové učení díky potřebě analyzovat velké množství dat v reálném čase. Perspektivními se stávají škálovatelná řešení používající počítačové clustery a zpracovávání dat v reálném čase. Rekurentní neuronové sítě vyžadují velké množství dat k trénování. V případě Reservoir Computing frameworku jsou tyto nároky snížené. Reservoir Computing přináší specifický způsob konstrukce rekurentních neuronových sítí, kdy první část (reservoir) je netrénovaná a druhá část (readout) typicky využívá lineárního modelování. Apache Flink je škálovatelný framework zaměřený na stream processing (zpracovávání datových proudů). Flink umožňuje zvýšenou odolnost vůči chybám (např. pomocí tzv. "exactly-once semantics") a nízkou latenci díky zpracovávání prvků datového proudu individuálně. V rámci této práce jsme vyvinuli novou, rozšiřitelnou knihovnu Reservoir Computing funkcionalit pro Apache Flink. Představíme teorii v pozadí a provedené experimenty.

Stream processing for Machine Learning has become popular with the need to analyze large amounts of data in real-time. The focus is shifting to scalable solutions using clusters and processing the data in real-time. Recurrent Neural Networks are expensive to train (require large amounts of data). These requirements are reduced when using the Reservoir Computing framework. Reservoir Computing introduces a specific paradigm that the first part (reservoir) of a Recurrent Neural Network is left untrained, and the second part (readout) focuses on linear modelling. Apache Flink is a scalable stream processing framework. Flink can provide fault-tolerance guarantees (such as exactly-once semantics) and low latency thanks to processing the stream records individually. We've developed a new, extensible Reservoir Computing library in Apache Flink. In this work, we present the theory behind it and the performed experiments.