Metody Multiple Instance Learning pro zpracování dlouhých vstupů modely NLP
Multiple Instance Learning for Long Input NLP Models
Type of document
diplomová prácemaster thesis
Author
Vojtěch Jeřábek
Supervisor
Drchal Jan
Opponent
Kubalík Jiří
Field of study
Datové vědyStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
V současných aplikacích v oblasti zpracování přirozeného jazyka převažují modely využívající Transformer architekturu, tyto modely spolu ovšem sdílí jednu nevýhodu. Tou je kvadratická výpočetní složitost, která omezuje velikost přijímaného vstupu pro standardní Transformer model na 512 až 1024 tokenů, což je v případě dlouhých vstupů nedostatečný počet. Cílem práce bylo využít metod Multiple Instance Learning pro zpracování dlouhých vstupů v modelech pro zpracování přirozeného jazyka. Díky tomu můžeme využívat široké škály již předtrénovaných Transformer modelů. Multiple Instance Learning je technika pro klasifikaci množin instancí. Naše metoda využívá sekvenčního zpracování dlouhého vstupu na kratší části. Tyto kratší části jsou zpracovány jazykovými modely založenými na Transformer architektuře a následně společně klasifikovány za použití Multiple Instance Learning techniky. V experimentální části jsme funkčnost modelu ověřili na 3 různých datových sadách, 2 v jazyce anglickém a 1 v českém, s nejdelším vstupem o velikosti 13926 tokenů. Ačkoliv výsledky ukázaly, že navržený model je schopen zpracovat i ty nejdelší vstupy, což standardní metody využívající jazykové modely nezvládly, tak nebyl zjištěn výrazný přínos v oblasti zvýšené přesnosti v porovnání s jinými modely. V některých případech byly dokonce výsledky pod úrovní standardu. Výsledky jsme blíže diskutovali, popsali možné nedostatky a navrhli případné směry pro další výzkum. At present, models exploiting the Transformer architecture are reigning over challenges in the NLP field. These models, however, share a drawback - their quadratic computational complexity, which constrains the input size for the standard Transformer model between 512 and 1024 tokens, an amount inadequate for long inputs. The objective of our master's thesis is to employ Multiple Instance Learning techniques for processing long input Natural Language Processing models, while utilizing one of many pre-trained Transformer models. Multiple Instance Learning is a classification approach for instance sets. Our presented method relies on sequentially breaking down long inputs into shorter parts. Transformer-based language models process these shorter sections and collectively classify them using the MIL technique. In the experimental part, we tested the functionality of our model on three diverse datasets, two in English and one in Czech with input length up to 13,926 tokens. While the results revealed our model could handle even the longest inputs - a standard achievement language model-based methods fail to meet - we didn't observe a substantial contribution in enhanced accuracy compared to other models. In some instances, the results were even below the baseline. We discussed the results in more detail, described potential shortcomings, and proposed directions for further research.
Collections
- Diplomové práce - 13136 [902]