Generování hudby pomocí neuronových sítí

Jan Šimerda

Generating music using neural networks

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Jan Šimerda

Vedoucí práce

Tyl Jan

Oponent práce

Šimánek Petr

Studijní obor

Znalostní inženýrství

Studijní program

Informatika 2009

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Tato bakalárská práce zkoumá využití umelých neuronových sítí v oblasti strojového generování hudby. Zamerili jsme se na využití technik používaných ve zpracování prirozeného jazyka založených na attention mechanismu. Práce popisuje celý proces generování hudby od výberu dat, pres tokenizaci (transformace hudby ze surových dat do formátu vhodného pro vybrané modely) až po trénování modelu. Použili jsme nejmodernejší modely založené na Transformer architekture, bežne užívaných v NLP, abychom získali odpoved na otázku, jestli lze tyto modely, které mají skvelé výsledky v doménách generování textu a strojového prekladu, použít také pro generování hudby. Vyzkoušeli jsme také nekolik navrhovaných vylepšení Transformer modelu a attention mechanismu a porovnali je s puvodním Transformer modelem. Pro trénování neuronových sítí jsme využili dataset MAESTRO, který obsahuje stovky hodin klasických klavírních skladeb. Skladby použité pro trénování modelu jsou v symbolické MIDI reprezentaci. Zjistili jsme, že originální Transformer není pro tvorbu hudby vhodný a je lepší zvolit Music Transformer, který dosahuje presnosti 25,13 % na testovací sade.

This thesis aims at using artificial neural networks in machine music generation. We emphasized using natural language processing techniques based on attention mechanisms. The work describes the whole music generation pipeline from data selection through tokenization (transforming music from raw data into a format digestible by selected models) up to model training. We used state-of-the-art models based on the Transformer architecture commonly used in NLP to answer whether these well-performing models in domains like text generation or text translation can also be used to generate music. We also tested some proposed enhancements to the Transformer model and the attention mechanism and compared them to the vanilla Transformer model. We used the MAESTRO dataset for the training process that contains hundreds of hours of classical piano pieces. The songs used for training the models are in symbolic MIDI representation. We found out that the original Transformer is not suitable for the music generation task an it's better to use Music Transformer that reaches 25.13 % accuracy on test set.