Text summarization for chatbots
Sumarizace textu pro chatboty
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
Zpracování přirozeného jazyka proměňuje, jak jako lidé komunikujeme s počítači. Hlasoví asistenti a chatboti se pomalu ale jistě stávají nedílnými součástmi našich životů. Práce pojednává o návrhu konverzační platformy založené na Amazon Alexa Skills, která uživateli zprostředkuje souhrn webové stránky z Wikipedie. Současné přístupy k vývoji dialogových systémů a sumarizace nestrukturovaného textu jsou popsány a dvě vybrané metody, extraktivní ``latent semantic analysis'' a abstraktivní ``discourse-aware attention'' model, porovnány na veřejně dostupných datasetech. Na základě získaných zkušeností je navrženo a otestováno možné vylepšení zahrnující word2vec model. Vybraná metoda je integrována do platformy chatbota poskytující reálný příklad užití.
Recent advances in speech recognition and natural language understanding have brought an edge to the communication between humans and computers. With personal assistants and chatbots slowly becoming parts of our lives, we implement a conversational platform built on Amazon Alexa Skills, providing a user with summarized content of a Wikipedia website. A comprehensive overview of the state of the art in dialogue systems and unstructured text summarization areas is provided, and an extractive latent semantic analysis and abstractive discourse-aware attention model are evaluated on publicly available datasets. Word2vec word embeddings are further proposed and validated as a possible improvement. The selected approach is implemented into the chatbot providing a practical use case.
Recent advances in speech recognition and natural language understanding have brought an edge to the communication between humans and computers. With personal assistants and chatbots slowly becoming parts of our lives, we implement a conversational platform built on Amazon Alexa Skills, providing a user with summarized content of a Wikipedia website. A comprehensive overview of the state of the art in dialogue systems and unstructured text summarization areas is provided, and an extractive latent semantic analysis and abstractive discourse-aware attention model are evaluated on publicly available datasets. Word2vec word embeddings are further proposed and validated as a possible improvement. The selected approach is implemented into the chatbot providing a practical use case.