Integrace textových a obrazových modelů pro odpovídání na otázky
Integrating Text and Image Models for Question Answering
Typ dokumentu
diplomová prácemaster thesis
Autor
Jan Čuhel
Vedoucí práce
Šedivý Jan
Oponent práce
Tolias Georgios
Studijní obor
Počítačové vidění a digitální obrazStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zaměřuje na vylepšení systémů Retrieval-Augmented Generation (RAG) začleněním znalostí z obrázků. Cílem této práce bylo najít optimální fúzi textových a obrazových modelů pro začlenění znalostí z obrázků do systémů pro zodpovídání otázek (QA), které jsou schopny odpovídat na otázky týkající se technických příruček. Práce začíná představením problému a podáním přehledu o souvisejících pracích a současně nejlepších vizuálně jazykových modelů (Visual-Language models, VLM). Poté je navržen multimodální RAG systém a jsou popsány jeho klíčové komponenty. Pro natrénování a ohodnocení jednotlivých komponent jsme vytvořili několik datových sad. Tyto datové sady a natrénované modely byly zveřejněny. Vybrané modely vykazují na vytvořených datových sadách slibné výsledky. V rámci práce jsme také navrhli algoritmus pro lokalizaci pozice ikony v textu na základě jejích souřadnic na stránce. Nakonec jsme implementovali navržený multimodální RAG systém do funkční aplikace. Všechny experimenty a modely byly naprogramovány v programovacím jazyce Python. This work focuses on enhancing Retrieval-Augmented Generation (RAG) systems by incorporating knowledge from images. The goal of this work was to find an optimal fusion of text and image models to integrate knowledge from images into Question-Answering (QA) systems capable of answering questions about technical manuals. The work introduces the problem and reviews the related work and the current state-of-the-art Visual-Language models (VLMs). We then propose a multi-modal RAG pipeline and describe its crucial components. We created several data sets to train and evaluate the proposed pipeline's components. The created data sets and trained models were published. The selected models show promising results on the created data sets. As part of the work, we proposed an algorithm for localizing an icon's position in a text based on its coordinates on a page. Ultimately, we implemented the proposed multi-modal RAG pipeline into a working QA application. All experiments and models were programmed in the Python programming language.
Kolekce
- Diplomové práce - 13133 [503]