Semantic Sentence Similarity for Intent Recognition Task

Sémantická podobnost vět pro úlohu rozpoznání úmyslu

Research Projects

Organizational Units

Journal Issue

Abstract

Modul pro rozpoznání úmyslu je základní součástí jakéhokoliv question-answering bota (např. Amazon Echo). Tato práce implementuje modul pro rozpoznání úmyslu, založený na větných předlohách, který je silně závislý na efektivitě text embedding algoritmů. Tato práce proto poskytuje komplexní přehled nynějších word a sentence embedding algoritmů. Dále provádí unikátní porovnání těchto algoritmů, týkající se jejich trénovacích schopností, výkonu a hardwarových nároků. Tato práce dále implementuje dvě metody komprese embedding modelů (promazávání slovníku a vektorovou kvantizaci) za účelem jejich použití v mobilních aplikacích. Embedding algoritmus StarSpace dosáhl v experimentech nejlepších výsledků. Zkoumané metody pro kompresi modelů se ukázaly být velmi výkonné, přičemž dokázaly zmenšit velikost modelů 100-1000 krát bez viditelného zhoršení výsledků. Komprimovaný StarSpace model byl proto využit pro výsledný modul pro rozpoznání úmyslu, který byl schopen překonat systém používaný v Alquist social botovi (druhé místo v Alexa prize soutěži, 2017), přičemž byl méně komplexní.

An intent recognition module is a core component of any question-answering bot (e.g. Amazon Echo). This thesis implements a template-based intent recognition system, which heavily relies on the performance of text embedding algorithms. The thesis therefore provides a comprehensive overview of the state-of-the-art word and sentence embedding algorithms. Further, it performs a unique comparison of the algorithms in terms of their training properties, performance, and hardware requirements. This work further implements two model compression techniques (vocabulary pruning and vector quantization) to make the models more suitable for mobile applications. The StarSpace embedding algorithm performed the best in the experiments. Further, the compression methods proved to be very powerful, being able to reduce the size of the models 100-1000 times without any notable loss of performance. Thus, a compressed StarSpace model was used to create the resulting intent recognition module that was able to outperform the currently used system in the Alquist social bot (second place in the 2017 Alexa prize contest) while being less complex.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By