Response Time Improvement of Multimodal Interactive Systems
Type of document
disertační práceAuthor
Hák, Roman
Supervisor
Zeman, Tomáš
Field of study
Telekomunikační technikaStudy program
Elektrotechnika a informatikaInstitutions assigning rank
České vysoké učení technické v Praze. Fakulta elektrotechnická. Katedra telekomunikační technikyMetadata
Show full item recordAbstract
Multimodal interaction, permitting our
highly skilled and coordinated communicative
behavior to control computer systems,
has been proven as a key to natural
and very flexible human-computer interaction.
However, multimodal input processing
submits great research and development
challenges in contrast to the traditional
user interfaces. Besides processing
of complex input signals from individual
modality sensors (e.g. speech recognition,
image processing, etc.), it also requires
more detailed understanding of human
communication paradigms and interaction
schemes.
The submitted thesis deals with an
analysis of users’ integration patterns observed
during multimodal interaction and
explores possibilities of their utilization to
increase accuracy and robustness of algorithms
for multimodal input processing.
The work contains three main parts.
The first one is dedicated to an analysis
of the most fundamental multimodal integration
patterns, which is followed by
a quantitative research and evaluation of
import characteristics of the patterns in
the form of own conducted user study. In
the context of the new findings, a definition
of a classification of one of the
most important integration patterns, i.e.
synchronization pattern dividing users to
simultaneous (SIM) and sequential (SEQ)
integrators, is modified and readjusted.
The modified classification addresses issues
with consistency and accuracy and
offers a significantly superior solution to
the original definition provided in the related
literature.
Based on the evaluations and results
obtained in the quantitative empirical research,
a method for multimodal integration
patterns modeling with utilization
of machine learning algorithms, namely
Bayesian Networks, is designed and proposed
in the following part of the thesis.
The constructed probability model is capable
of very precise and robust multimodal
input prediction with accuracy of 99%.
A procedure for applying the predictive
capabilities of the constructed classification
model to address the multimodal
input segmentation is then introduced.
The proposed procedure is subjected to
tests and measurements in order to evaluate
the segmentation accuracy and impact
of the procedure employment on response
time of the system. Experiments
with a selection of training sets and a
comparison of four approaches to encode
continuous input variables in the model
are conducted as a part of the measurements.
The results show that the introduced
segmentation method provides a
significant improvement in response time
(to 0.8 s for SEQ and under 0.5 s for SIM
integrators) over the state-of-the-art approaches,
while maintaining remarkably
high accuracy (98–99%). This significant
decrease in response time allows a system
to respond more instantly on user’s
multimodal input with nearly real-time
feedback and brings very important improvement
in terms of usability, which
should positively influence users’ experience
and satisfaction with the multimodal
interaction interface. Multimodalní interakce umožnuje plne využít
naše velmi zdatné a vysoce koordinované
komunikacní schopnosti k ovládání
pocítacových systému. Predstavuje
tak cestu k prirozené a velmi flexibilní interakci
cloveka s pocítacem. Zpracování
multimodálního vstupu však oproti tradicním
uživatelským rozhraním predstavuje
mnohé nárocné výzkumné i vývojové
úkoly. Krome zpracování složitých signálu
od jednotlivých senzoru (napr. rozpoznání
reci, obrazu apod.) vyžaduje také mnohem
detailnejší znalost a porozumení lidským
komunikacním paradigmatum a interakcním
schématum.
Predložená práce se zaobírá analýzou
uživatelských integracních vzorcu pozorovaných
pri multimodální interakci a
zkoumá možnosti jejich využití ke zvýšení
presnosti a robustnosti algoritmu pro
zpracování multimodálních vstupu.
Práce obsahuje tri stežejní cásti. První
z nich je venována analýze nejpodstatnejších
multimodálních integracních vzorcu,
na kterou navazuje kvantitativní výzkum
duležitých charakteristik techto vzorcu v
podobe vlastní uživatelské studie. V rámci
nove získaných poznatku je modifikována
definice pro klasifikaci jednoho z nejduležitejších
vzorcu, tj. synchronizacní vzor
delící uživatele na simultánní (SIM) a
sekvencní (SEQ) integrátory. Nová klasifikace
reší zejména problémy v konzistenci
a presnosti, a významne tak kvalitativne
presahuje puvodní definici uvádenou
v související literature.
Na základe zjištení a výsledku dosažených
v rámci kvantitativního výzkumu
je v další cásti práce navržena metoda
pro modelování multimodálních integracních
vzorcu pomocí algoritmu strojového
ucení, jmenovite Bayesovských sítí. Zkonstruovaný
pravdepodobnostní model poskytuje
velmi presnou a robustní predikci
multimodálního vstupu dosahujícího 99%
úspešnosti.
Následne je popsán postup aplikování
predikcních schopností modelu pri rešení
segmentace spojitého multimodálního
vstupu. Predstavená metoda je podrobena
testum a merením s ohledem na presnost
a dopad jejího použití na zlepšení doby
odezvy systému. V rámci merení jsou provedeny
experimenty s volbou trénovací
množiny a porovnání ctyr prístupu ke kódování
spojitých vstupních promenných
v modelu. Výsledky ukazují, že navržená
metoda poskytuje významné zlepšení v
dobe odezvy systému (0,8 s pro SEQ a
pod 0,5 s pro SIM integrátory) v porovnání
s nejmodernejšími publikovanými postupy
pri zachování pozoruhodne vysoké
presnosti (98–99 %). Toto výrazné snížení
umožnuje systému zareagovat na multimodální
uživatelský vstup s odevzvou témer
v reálnem case. Prináší tak duležité zlepšení
ve smyslu použitelnosti, které by melo
pozitivne ovlivnit celkovou uživatelskou
zkušenost a spokojenost s multimodálním
interakcním rozhraním.
Collections
- Disertační práce - 13000 [712]
The following license files are associated with this item: