Zobrazit minimální záznam

Algorithms for Document Retrieval in Czech Language Supporting Long Inputs



dc.contributor.advisorDrchal Jan
dc.contributor.authorAlexander Gažo
dc.date.accessioned2021-08-31T22:51:35Z
dc.date.available2021-08-31T22:51:35Z
dc.date.issued2021-08-31
dc.identifierKOS-1089438967905
dc.identifier.urihttp://hdl.handle.net/10467/97063
dc.description.abstractÚloha vyhľadávania dokumentov (document retrieval) je dobre známy problém nájdenia relevantnej podmnožiny dokumentov k vyhľadávanemu dotazu. Nedávny pokrok v oblasti spracovania prirodzeného jazyka (NLP), konkrétne architektúra transformera (Vaswani et al., 2017) a model BERT (Devlin et al., 2018), poskytujú nový prístup k vyhľadávaniu dokumentov. Vyhľadávanie dokumentov v tejto práci je motivované úlohou overovania faktov v českom jazyku, ktorá je dôležitou výzvou pre moderný svet. V tejto práci aplikujeme najnovšie výskumné výsledky na mechanizmus pozornosti (attention) transformera (Bahdanau et al., 2015), znižujúc priestorovú a časovú zložitosť, čo umožňuje prácu s dlhšími vstupnými sekvenciami (dokumentami). Na záver skúmame, či spracovanie celých článkov, na rozdiel od iba ich odsekov, zlepšuje výkonnosť vyhľadávacích modelov.cze
dc.description.abstractThe document retrieval task is a well-studied problem of finding the relevant subset of documents to the provided search query. Recent advances in the field of Nat- ural Language Processing (NLP), namely the transformer architecture (Vaswani et al., 2017) and BERT model (Devlin et al., 2018) provide a new approach to document retrieval. The document retrieval in this thesis is motivated by the Czech fact-checking task, which is an important challenge in the modern world. In this thesis, we apply the latest research achievements to the transformer’s attention mechanism (Bahdanau et al., 2015), decreasing the space and time complexity, allowing for longer input se- quences (documents). We then study whether the processing of whole articles, unlike only theirs paragraphs, improves the performance of the retrieval models.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectNLPcze
dc.subjectBERTcze
dc.subjectTFIDFcze
dc.subjectčeský jazykcze
dc.subjectdlouhé vstupycze
dc.subjectověřování faktůcze
dc.subjectvyhledávání dokumentůcze
dc.subjectdocument retrievaleng
dc.subjectfact-checkingeng
dc.subjectlong-inputseng
dc.subjectCzech languageeng
dc.subjectNLPeng
dc.subjectBERTeng
dc.subjectTFIDFeng
dc.titleMetody document retrieval nad českými texty vhodné pro zpracování dlouhých vstupůcze
dc.titleAlgorithms for Document Retrieval in Czech Language Supporting Long Inputseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeKordík Pavel
theses.degree.disciplineUmělá inteligencecze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam