Zpracování přirozeného jazyka v otevřených dialogových systémech
Natural Language Understanding in Open-Domain Dialogue Systems
Type of document
disertační prácedoctoral thesis
Author
Jan Pichl
Supervisor
Kubalík Jiří
Opponent
Hermansky Hynek
Field of study
Umělá inteligence a biokybernetikaStudy program
Elektrotechnika a informatikaInstitutions assigning rank
katedra kybernetikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
V posledních letech jsme mohli zaznamenat zvýšenou popularitu umělé inteligence. Konverzační systémy výrazně zlepšily své dovednosti zejména díky pokroku v oblasti velkých jazykových modelů. Oproti dřívějším systémům, které byly postaveny především na přístupech založených na předem připravených pravidlech, jsou současné systémy schopny reagovat na celou škálu vstupů. Cenou za lepší kvalitu odpovědí jsou však nároky na výpočetní zdroje a s tím spojená zvýšená doba odezvy. Navíc adaptace těchto systémů v rámci složitější aplikací bývá často problematická.Hlavním cílem této práce je přispět k rozvoji konverzačních systémových architektur a porozumění přirozenému jazyku využitím hybridních přístupů.Tato práce navrhuje novou architekturu hybridního konverzačního systému, která vznikla jako výsledek řady architektur testovaných během soutěží Alexa Prize.Všechny iterace architektury byly během soutěží oceněny, přičemž finální verze se umístila na prvním místě. Soutěž mimo jiné umožnila vyhodnotit systém v reálném prostředí s desítkami tisíc uživatelů.Navrhovaná architektura je postavena na konverzačních jednotkách, které nazýváme sub-dialogy. Tyto sub-dialogy mohou být flexibilně kombinovány pro vytvoření komplexní konverzační aplikace. Každý dílčí sub-dialog má svou vlastní sadu modelů na rozpoznávání intentu, které jsou během běhu variabilně kombinovány. Kombinace modelů je dosažena námi navrženým novým přístupem nazvaným hierarchické rozpoznávání intentu. Rozpoznávání záměrů je navíc spojeno s detekcí Out of domain, což umožňuje rozpoznat limity konverzačního návrhu a snadno zapojit generativní jazykové modely. Nad navrženou architekturou jsme také vytvořili konverzační platformu, která umožňuje dialogovým designerům snadno vytvořit a otestovat konverzační aplikaci s použitím minimálního množství dat. Proces návrhu probíhá pomocí intuitivního vizuálního rozhraní. Výsledné aplikace využívají efektivní algoritmy k dosažení co nejnižší latence.Kromě rozpoznávání intentu a detekce OOD navrhujeme pragmatickou úroveň porozumění pomocí Dialogových Actů. Segmentovaný přístup umožňuje klasifikaci na úrovni nižší,než je celá promluva, kterou lze využít k úpravě průběhu konverzace, zejména ve scénářích OOD.Všechny navržené přístupy byly testovány v reálných scénářích během soutěží Alexa Prize a našimi dalšími voice-enabled aplikacemi. In recent years, conversational AI has experienced a significant increase in popularity. The conversational systems have improved significantly,especially due to the advancements of the Large Language Models. Compared to the previous systems, which were mainly built on top of the rule-based approaches,the current systems are capable of responding to various inputs. However, the cost for better response quality is the resource consumption and, consequently,the latency. Foreover, the customization of these systems at a larger scale starts to be problematic. The main goal of the thesis is to contribute to the field of conversational system architectures and natural language understanding by leveraging hybrid approaches.We propose a novel hybrid conversational system architecture that was created as a result of a series of architectures tested during annual Alexa Prize competitions.All of the subsequent architecture iterations were awarded during the competitions, and the final one was awarded as a first-place winner. The competition allowed the system to be evaluated in a real-world setup with tens of thousands of users.The proposed architecture is built on top of sub-dialogue units, allowing a flexible combination of these units to create a complex conversational application.Each sub-dialogue has its own set of intent recognition models that are combined variably during the runtime. The combination of the models is achieved by our proposed novel approach called hierarchical intent recognition. Additionally, the intent recognition is coupled with Out-of-domain detection, allowing to recognition of the limits of the conversational design and easily plugging the generative LLM.Moreover, we created a conversational platform on top of the proposed architecture, allowing the dialogue designer to create and test the conversational application easily using a minimal amount of data. The design process is done using an intuitive visual interface. The resulting applications use efficient algorithms to achieve the lowest possible latency. Besides the intent recognition and OOD detection, we propose a pragmatic level of understanding using Dialogue Acts. The segmented approach allows fine-grained classification that can be used to modify the conversation flow, especially in the OOD scenarios. All of the proposed approaches have been tested in real-world scenarios during Alexa Prize competitions and by our additional voice-enabled applications.
View/ Open
Collections
- Disertační práce - 13000 [736]