Zobrazit minimální záznam



dc.contributor.advisorZeman, Tomáš
dc.contributor.authorHák, Roman
dc.date.accessioned2017-04-10T08:48:06Z
dc.date.available2017-04-10T08:48:06Z
dc.date.issued2017
dc.identifier.urihttp://hdl.handle.net/10467/67782
dc.description.abstractMultimodal interaction, permitting our highly skilled and coordinated communicative behavior to control computer systems, has been proven as a key to natural and very flexible human-computer interaction. However, multimodal input processing submits great research and development challenges in contrast to the traditional user interfaces. Besides processing of complex input signals from individual modality sensors (e.g. speech recognition, image processing, etc.), it also requires more detailed understanding of human communication paradigms and interaction schemes. The submitted thesis deals with an analysis of users’ integration patterns observed during multimodal interaction and explores possibilities of their utilization to increase accuracy and robustness of algorithms for multimodal input processing. The work contains three main parts. The first one is dedicated to an analysis of the most fundamental multimodal integration patterns, which is followed by a quantitative research and evaluation of import characteristics of the patterns in the form of own conducted user study. In the context of the new findings, a definition of a classification of one of the most important integration patterns, i.e. synchronization pattern dividing users to simultaneous (SIM) and sequential (SEQ) integrators, is modified and readjusted. The modified classification addresses issues with consistency and accuracy and offers a significantly superior solution to the original definition provided in the related literature. Based on the evaluations and results obtained in the quantitative empirical research, a method for multimodal integration patterns modeling with utilization of machine learning algorithms, namely Bayesian Networks, is designed and proposed in the following part of the thesis. The constructed probability model is capable of very precise and robust multimodal input prediction with accuracy of 99%. A procedure for applying the predictive capabilities of the constructed classification model to address the multimodal input segmentation is then introduced. The proposed procedure is subjected to tests and measurements in order to evaluate the segmentation accuracy and impact of the procedure employment on response time of the system. Experiments with a selection of training sets and a comparison of four approaches to encode continuous input variables in the model are conducted as a part of the measurements. The results show that the introduced segmentation method provides a significant improvement in response time (to 0.8 s for SEQ and under 0.5 s for SIM integrators) over the state-of-the-art approaches, while maintaining remarkably high accuracy (98–99%). This significant decrease in response time allows a system to respond more instantly on user’s multimodal input with nearly real-time feedback and brings very important improvement in terms of usability, which should positively influence users’ experience and satisfaction with the multimodal interaction interface.cze
dc.description.abstractMultimodalní interakce umožnuje plne využít naše velmi zdatné a vysoce koordinované komunikacní schopnosti k ovládání pocítacových systému. Predstavuje tak cestu k prirozené a velmi flexibilní interakci cloveka s pocítacem. Zpracování multimodálního vstupu však oproti tradicním uživatelským rozhraním predstavuje mnohé nárocné výzkumné i vývojové úkoly. Krome zpracování složitých signálu od jednotlivých senzoru (napr. rozpoznání reci, obrazu apod.) vyžaduje také mnohem detailnejší znalost a porozumení lidským komunikacním paradigmatum a interakcním schématum. Predložená práce se zaobírá analýzou uživatelských integracních vzorcu pozorovaných pri multimodální interakci a zkoumá možnosti jejich využití ke zvýšení presnosti a robustnosti algoritmu pro zpracování multimodálních vstupu. Práce obsahuje tri stežejní cásti. První z nich je venována analýze nejpodstatnejších multimodálních integracních vzorcu, na kterou navazuje kvantitativní výzkum duležitých charakteristik techto vzorcu v podobe vlastní uživatelské studie. V rámci nove získaných poznatku je modifikována definice pro klasifikaci jednoho z nejduležitejších vzorcu, tj. synchronizacní vzor delící uživatele na simultánní (SIM) a sekvencní (SEQ) integrátory. Nová klasifikace reší zejména problémy v konzistenci a presnosti, a významne tak kvalitativne presahuje puvodní definici uvádenou v související literature. Na základe zjištení a výsledku dosažených v rámci kvantitativního výzkumu je v další cásti práce navržena metoda pro modelování multimodálních integracních vzorcu pomocí algoritmu strojového ucení, jmenovite Bayesovských sítí. Zkonstruovaný pravdepodobnostní model poskytuje velmi presnou a robustní predikci multimodálního vstupu dosahujícího 99% úspešnosti. Následne je popsán postup aplikování predikcních schopností modelu pri rešení segmentace spojitého multimodálního vstupu. Predstavená metoda je podrobena testum a merením s ohledem na presnost a dopad jejího použití na zlepšení doby odezvy systému. V rámci merení jsou provedeny experimenty s volbou trénovací množiny a porovnání ctyr prístupu ke kódování spojitých vstupních promenných v modelu. Výsledky ukazují, že navržená metoda poskytuje významné zlepšení v dobe odezvy systému (0,8 s pro SEQ a pod 0,5 s pro SIM integrátory) v porovnání s nejmodernejšími publikovanými postupy pri zachování pozoruhodne vysoké presnosti (98–99 %). Toto výrazné snížení umožnuje systému zareagovat na multimodální uživatelský vstup s odevzvou témer v reálnem case. Prináší tak duležité zlepšení ve smyslu použitelnosti, které by melo pozitivne ovlivnit celkovou uživatelskou zkušenost a spokojenost s multimodálním interakcním rozhraním.
dc.language.isoenen
dc.titleResponse Time Improvement of Multimodal Interactive Systemsen
dc.typedisertační prácecze
dc.description.departmentKatedra telekomunikační techniky
theses.degree.disciplineTelekomunikační technika
theses.degree.grantorČeské vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra telekomunikační techniky
theses.degree.programmeElektrotechnika a informatika


Soubory tohoto záznamu



Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam