Integrace textových a obrazových modelů pro odpovídání na otázky

Jan Čuhel

Integrating Text and Image Models for Question Answering

dc.contributor.advisor	Šedivý Jan
dc.contributor.author	Jan Čuhel
dc.date.accessioned	2024-06-18T10:32:17Z
dc.date.available	2024-06-18T10:32:17Z
dc.date.issued	2024-06-10
dc.identifier	KOS-1240440648805
dc.identifier.uri	http://hdl.handle.net/10467/114777
dc.description.abstract	Tato práce se zaměřuje na vylepšení systémů Retrieval-Augmented Generation (RAG) začleněním znalostí z obrázků. Cílem této práce bylo najít optimální fúzi textových a obrazových modelů pro začlenění znalostí z obrázků do systémů pro zodpovídání otázek (QA), které jsou schopny odpovídat na otázky týkající se technických příruček. Práce začíná představením problému a podáním přehledu o souvisejících pracích a současně nejlepších vizuálně jazykových modelů (Visual-Language models, VLM). Poté je navržen multimodální RAG systém a jsou popsány jeho klíčové komponenty. Pro natrénování a ohodnocení jednotlivých komponent jsme vytvořili několik datových sad. Tyto datové sady a natrénované modely byly zveřejněny. Vybrané modely vykazují na vytvořených datových sadách slibné výsledky. V rámci práce jsme také navrhli algoritmus pro lokalizaci pozice ikony v textu na základě jejích souřadnic na stránce. Nakonec jsme implementovali navržený multimodální RAG systém do funkční aplikace. Všechny experimenty a modely byly naprogramovány v programovacím jazyce Python.	cze
dc.description.abstract	This work focuses on enhancing Retrieval-Augmented Generation (RAG) systems by incorporating knowledge from images. The goal of this work was to find an optimal fusion of text and image models to integrate knowledge from images into Question-Answering (QA) systems capable of answering questions about technical manuals. The work introduces the problem and reviews the related work and the current state-of-the-art Visual-Language models (VLMs). We then propose a multi-modal RAG pipeline and describe its crucial components. We created several data sets to train and evaluate the proposed pipeline's components. The created data sets and trained models were published. The selected models show promising results on the created data sets. As part of the work, we proposed an algorithm for localizing an icon's position in a text based on its coordinates on a page. Ultimately, we implemented the proposed multi-modal RAG pipeline into a working QA application. All experiments and models were programmed in the Python programming language.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	Počítačové vidění	cze
dc.subject	Zpracování přirozeného jazyka	cze
dc.subject	Velké jazykové modely	cze
dc.subject	Vizuálně-jazykové modely	cze
dc.subject	Rozšířená generace pomocí vyhledávání	cze
dc.subject	Problém odpovídání otázek	cze
dc.subject	Computer Vision (CV)	eng
dc.subject	Natural Language Processing (NLP)	eng
dc.subject	Large Language Models (LLMs)	eng
dc.subject	Vision–Language Models (VLMs)	eng
dc.subject	Retrieval–Augmented Generation (RAG)	eng
dc.subject	Question–Answering (QA)	eng
dc.title	Integrace textových a obrazových modelů pro odpovídání na otázky	cze
dc.title	Integrating Text and Image Models for Question Answering	eng
dc.type	diplomová práce	cze
dc.type	master thesis	eng
dc.contributor.referee	Tolias Georgios
theses.degree.discipline	Počítačové vidění a digitální obraz	cze
theses.degree.grantor	katedra kybernetiky	cze
theses.degree.programme	Otevřená informatika	cze

Soubory tohoto záznamu

Název:: F3-DP-2024-Cuhel-Jan-Cuhel_Jan ...
Velikost:: 3.398Mb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F3-DP-2024-Cuhel-Jan-priloha-C ...
Velikost:: 33.33Mb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F3-DP-2024-posudek-Tolias_Geor ...
Velikost:: 244.9Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F3-DP-2024-posudek-Sedivy_Jan.pdf
Velikost:: 146.7Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Diplomové práce - 13133 [495]

Zobrazit minimální záznam