Computational Auditory Scene Analysis (CASA) for Separating Monophonic Music
Algoritmy CASA a jejich užití v separaci monofonní hudby z audio scény
Date
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Abstract
Velkou výzvou pro moderní systémy strojového slyšení je problém oddělení zdrojů. Jeden z přístupů k jeho řešení spočívá ve studiích počítačové analýzy sluchové scény (CASA), ve kterých jsou výpočetní modely inspirovány mechanismy sluchového ústrojí člověka a široce známým "cocktail party" efektem. Tato práce by měla být úvodem do oblasti CASA. V první části zkoumá teorii za sluchovým modelováním a zpracováním zvuku a odkazuje se na fyziku zvuku, biologii lidského ucha, psychologii sluchového vnímání a digitální zpracování signálu. Ve druhé části jsou tyto znalosti prakticky použity k implementaci jednoduchého CASA systému pro oddělení monofonní hudby od šumu. Tento systém je pak rozsáhle popsán a experimentálně vyhodnocen na sadě klavírních nahrávek.
A major challenge for modern machine hearing systems is the problem of sound source separation. One of the approaches to solve it lies in the studies in computational auditory scene analysis (CASA), in which computational models are inspired by the mechanisms in the human auditory system and the widely-known "cocktail party" effect. This thesis is meant to be an introduction to the field of CASA. In the first part, it investigates the theory behind auditory modeling and sound processing by diving into the physics of sound, biology of the human ear, psychology of hearing and digital signal processing. In the second part, this knowledge is practically used to implement a simple CASA system for separating monophonic music from background noise. This system is then extensively described and experimentally evaluated on a set of piano recordings.
A major challenge for modern machine hearing systems is the problem of sound source separation. One of the approaches to solve it lies in the studies in computational auditory scene analysis (CASA), in which computational models are inspired by the mechanisms in the human auditory system and the widely-known "cocktail party" effect. This thesis is meant to be an introduction to the field of CASA. In the first part, it investigates the theory behind auditory modeling and sound processing by diving into the physics of sound, biology of the human ear, psychology of hearing and digital signal processing. In the second part, this knowledge is practically used to implement a simple CASA system for separating monophonic music from background noise. This system is then extensively described and experimentally evaluated on a set of piano recordings.