Metody grafových neuronových sítí pro zpracování dlouhých vstupů NLP modelů

Václav Hlaváč

Graph Neural Networks for Long Input NLP Models

Typ dokumentu

diplomová práce
master thesis

Autor

Václav Hlaváč

Vedoucí práce

Drchal Jan

Oponent práce

Šír Gustav

Studijní obor

Datové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Obhájeno

2023-02-08

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Užitečnost a dopady metod zpracování přirozeného jazyka stále nabývají na důležitosti. Představení Transformerů dovolilo snadné řešení mnoha úloh, jako například zodpovídání otázek nebo sumarizace dokumentů, pomocí jednotné architektury. Jejich kvadratická výpočetní složitost a pameťové nároky ale zapříčiňují problematické zpracování dlouhých vstupních sekvencí. Většina předtrénovaných modelů založených na Transformer architektuře zavádí omezení pro délku vstupu a běžně přijímá vstupy délky až 512 tokenů. Tato diplomová práce konstruuje klasifikační model dlouhých vstupních sekvencí kombinací již předtrénovaných jazykových modelů založených na Transformer architektuře určných pro zpracování kratších vstupů a grafových neuronových sítích, třídě metod hlubokého učení pro zpracování grafových dat. Výsledný model je schopen zpracovat například vstupy obsahující 13926 tokenů. Navrhovaný model je testován na třech různých datových sadách a jeho klasifikační schopnosti jsou představeny a diskutovány. Možné nedostatky představeného modelu jsou následně identifikovány a další možné postupy pro využití grafových neuronových sítích pro klasifikaci dlouhých vstupů jsou navrženy.

The usefulness and the impact of natural language processing methods is becoming ever more relevant. The introduction of the Transformer allowed to easily tackle many tasks, such as question answering and document summarization, using a single architecture. Nevertheless, its quadratic computational complexity and memory requirements make it infeasible to use for processing long input sequences. A majority of the pre-trained models based on the Transformer architecture has a restriction on the length of the input, and usually accepts sequences of length up to 512 tokens. This thesis constructs a classifier of long input sequences by combining the already pre-trained Transformer-based models for short inputs with graph neural networks, a class of deep learning methods for processing graph data. The resulting model is able to process inputs as long as 13,926 tokens. The proposed model is tested on three distinct datasets and its performance is reported and discussed. Furthermore, its possible drawbacks are identified and future work directions for the use of graph neural networks for long input classification are suggested.