ČVUT DSpace
  • Prohledat DSpace
  • English
  • Přihlásit se
  • English
  • English
Zobrazit záznam 
  •   ČVUT DSpace
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra měření
  • Diplomové práce - 13138
  • Zobrazit záznam
  • České vysoké učení technické v Praze
  • Fakulta elektrotechnická
  • katedra měření
  • Diplomové práce - 13138
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

Předzpracování digitálního signálu pro zlepšení rozpoznávání obsahu

Digital signal preprocessing for content recognition improvement

Typ dokumentu
diplomová práce
master thesis
Autor
Aytaj Sabitova
Vedoucí práce
Holub Jan
Oponent práce
Novák Jiří
Studijní program
Cybernetics and Robotics
Instituce přidělující hodnost
katedra měření



Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznam
Abstrakt
Mluvení je hlavní způsob, jak lidé komunikují mezi sebou, bez kterého si téměř neumíme představit své životy. Již více jak století je věnováno mnoho pozornosti technologiím pro záznam a zpracování hlasu. Automatické rozpoznávání řeči (ASR) je jedním z důležitých prvků interakce člověka a stroje. Výzkum v této oblasti technologie je v současné době velmi aktuální. V posledních desetiletích ASR zaznamenalo velké zlepšení, které přineslo významné pokroky v několika klíčových oblastech. Díky těmto vylepšením se ASR stal nejen součástí našich každodenních životů, ale také důležitým systémem v mnoha oblastech, jako jsou vojenské komunikace, řízení leteckého provozu, veřejné bezpečnostní sítě a systémy pro nouzovou reakci. Přesto je ASR stále nedokonalé v realistických situacích, kdy vykazuje pokles výkonu v některých aspektech. Je prokázáno, že tyto systémy vykazují různé výkonnosti mezi pohlavími a také některé jazyky jsou méně příznivé pro ASR ve srovnání s jinými. V této práci se zaměřujeme na zvýšení úspěšnosti rozpoznávání obsahu radiového kanálu. Cílem je navrhnout a charakterizovat postupy, které dosahují nejlepších výsledků. Náš výzkum lze rozdělit do těchto hlavních oblastí: nejprve poskytujeme přehled nejnovějších metod v dané oblasti; poté představujeme náš přístup a simulovanou metodu, kterou plánujeme použít; nakonec představujeme a porovnáváme výsledky k diskusi. Celkově tato práce poskytuje ucelený přehled hlasových číslicově zpracovaných signálů a systémů automatického rozpoznávání řeči (ASR), a nabízí cenné poznatky pro optimalizaci těchto systémů.
 
Speech is the main way people communicate with each other, and we cannot even imagine our lives without it. Since a century ago, there have been lots of works dedicated to speech technologies. Automatic Speech Recognition (ASR), is one of the important bridges between human-machine interactions. Working with this technology is always considered important. In the last decades, ASR has seen enormous improvements, making significant improvements in several key areas. Thanks to these improvements, ASR has become not only a part of our daily lives but also an important system in diverse areas such as military communications, air traffic control, public safety networks, and emergency response systems. Despite these improvements, ASR still lacks realistic situations and shows performance drops in some aspects. There is evidence that these systems show different performances between genders, and some languages are less favorable for ASR compared to others. In this thesis, we focus on increasing the success rate of speech radio channel content recognition. We aim to design and characterize procedures that achieve the best results. Our research can be divided into main areas: first, we provide an overview of state-of-the-art methods on the topic; then, we present our approach and simulated method that we intend to use; finally, we present and compare results for discussion. In conclusion, this research provides a comprehensive understanding of speech, digital signal processing, and Automatic Speech Recognition (ASR) systems, offering valuable insights into the optimization of these systems.
 
URI
http://hdl.handle.net/10467/115337
Zobrazit/otevřít
PLNY_TEXT (6.507Mb)
POSUDEK (234.9Kb)
POSUDEK (283.3Kb)
Kolekce
  • Diplomové práce - 13138 [417]

Související záznamy

Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.

  • Design and Implementation of an End-to-End Speech Assistant 

    Autor: Felix Staudigl; Vedoucí práce: Schade Sascha; Oponent práce: Spilka Jiří
    (České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2019-06-19)
    Efektivní komunikace mezi člověkem a strojem představuje důležitou oblast výzkumu. Nedávné pokroky v oblasti strojového učení, konkrétně v oblasti zpracování přirozeného jazyka, umožňují inteligentním robotům využít hlasové ...
  • Porovnání architektur předtrénovaných řečových modelů Wav2Vec pro klasifikaci řečových vzorců u pacientů s neurologickými onemocněními 

    Autor: Adéla Skryjová; Vedoucí práce: Klempíř Ondřej; Oponent práce: Kala David
    (České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2025-06-24)
    Diplomová práce se zaměřuje na rozpoznávání patologických projevů v řeči prostřednictvím metod strojového učení, konkrétně projevů Parkinsonovy nemoci. Práce srovnává předtrénované řečové modely Wav2Vec 1.0 a Wav2Vec 2.0, ...
  • Ranking pre-trained speech embeddings in Parkinson's disease detection: Does Wav2Vec 2.0 outperform its 1.0 version across speech modes and languages? 

    Autor: Klempíř O.; Skryjová A.; Tichopád A.; Krupička R.
    (Elsevier BV, 2025)
    Speech and language technologies are effective tools for identifying the distinct speech changes associated with Parkinson's disease (PD), enabling earlier and more accurate diagnosis. Models leveraging recent advancements ...

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV
 

 

Užitečné odkazy

ČVUT v PrazeÚstřední knihovna ČVUTO digitální knihovně ČVUTInformační zdrojePodpora studiaPodpora publikování

Procházet

Vše v DSpaceKomunity a kolekceDle data publikováníAutořiNázvyKlíčová slovaTato kolekceDle data publikováníAutořiNázvyKlíčová slova

Můj účet

Přihlásit se

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Kontaktujte nás | Vyjádření názoru
Theme by 
@mire NV