Sumarizace textu pro chatboty
Text summarization for chatbots
Typ dokumentu
diplomová prácemaster thesis
Autor
Matyáš Lustig
Vedoucí práce
Spilka Jiří
Oponent práce
Pošík Petr
Studijní obor
Kybernetika a robotikaStudijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra řídicí technikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Zpracování přirozeného jazyka proměňuje, jak jako lidé komunikujeme s počítači. Hlasoví asistenti a chatboti se pomalu ale jistě stávají nedílnými součástmi našich životů. Práce pojednává o návrhu konverzační platformy založené na Amazon Alexa Skills, která uživateli zprostředkuje souhrn webové stránky z Wikipedie. Současné přístupy k vývoji dialogových systémů a sumarizace nestrukturovaného textu jsou popsány a dvě vybrané metody, extraktivní ``latent semantic analysis'' a abstraktivní ``discourse-aware attention'' model, porovnány na veřejně dostupných datasetech. Na základě získaných zkušeností je navrženo a otestováno možné vylepšení zahrnující word2vec model. Vybraná metoda je integrována do platformy chatbota poskytující reálný příklad užití. Recent advances in speech recognition and natural language understanding have brought an edge to the communication between humans and computers. With personal assistants and chatbots slowly becoming parts of our lives, we implement a conversational platform built on Amazon Alexa Skills, providing a user with summarized content of a Wikipedia website. A comprehensive overview of the state of the art in dialogue systems and unstructured text summarization areas is provided, and an extractive latent semantic analysis and abstractive discourse-aware attention model are evaluated on publicly available datasets. Word2vec word embeddings are further proposed and validated as a possible improvement. The selected approach is implemented into the chatbot providing a practical use case.
Kolekce
- Diplomové práce - 13135 [315]