Zobrazit minimální záznam

Integrating Text and Image Models for Question Answering



dc.contributor.advisorŠedivý Jan
dc.contributor.authorJan Čuhel
dc.date.accessioned2024-06-18T10:32:17Z
dc.date.available2024-06-18T10:32:17Z
dc.date.issued2024-06-10
dc.identifierKOS-1240440648805
dc.identifier.urihttp://hdl.handle.net/10467/114777
dc.description.abstractTato práce se zaměřuje na vylepšení systémů Retrieval-Augmented Generation (RAG) začleněním znalostí z obrázků. Cílem této práce bylo najít optimální fúzi textových a obrazových modelů pro začlenění znalostí z obrázků do systémů pro zodpovídání otázek (QA), které jsou schopny odpovídat na otázky týkající se technických příruček. Práce začíná představením problému a podáním přehledu o souvisejících pracích a současně nejlepších vizuálně jazykových modelů (Visual-Language models, VLM). Poté je navržen multimodální RAG systém a jsou popsány jeho klíčové komponenty. Pro natrénování a ohodnocení jednotlivých komponent jsme vytvořili několik datových sad. Tyto datové sady a natrénované modely byly zveřejněny. Vybrané modely vykazují na vytvořených datových sadách slibné výsledky. V rámci práce jsme také navrhli algoritmus pro lokalizaci pozice ikony v textu na základě jejích souřadnic na stránce. Nakonec jsme implementovali navržený multimodální RAG systém do funkční aplikace. Všechny experimenty a modely byly naprogramovány v programovacím jazyce Python.cze
dc.description.abstractThis work focuses on enhancing Retrieval-Augmented Generation (RAG) systems by incorporating knowledge from images. The goal of this work was to find an optimal fusion of text and image models to integrate knowledge from images into Question-Answering (QA) systems capable of answering questions about technical manuals. The work introduces the problem and reviews the related work and the current state-of-the-art Visual-Language models (VLMs). We then propose a multi-modal RAG pipeline and describe its crucial components. We created several data sets to train and evaluate the proposed pipeline's components. The created data sets and trained models were published. The selected models show promising results on the created data sets. As part of the work, we proposed an algorithm for localizing an icon's position in a text based on its coordinates on a page. Ultimately, we implemented the proposed multi-modal RAG pipeline into a working QA application. All experiments and models were programmed in the Python programming language.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectPočítačové viděnícze
dc.subjectZpracování přirozeného jazykacze
dc.subjectVelké jazykové modelycze
dc.subjectVizuálně-jazykové modelycze
dc.subjectRozšířená generace pomocí vyhledávánícze
dc.subjectProblém odpovídání otázekcze
dc.subjectComputer Vision (CV)eng
dc.subjectNatural Language Processing (NLP)eng
dc.subjectLarge Language Models (LLMs)eng
dc.subjectVision–Language Models (VLMs)eng
dc.subjectRetrieval–Augmented Generation (RAG)eng
dc.subjectQuestion–Answering (QA)eng
dc.titleIntegrace textových a obrazových modelů pro odpovídání na otázkycze
dc.titleIntegrating Text and Image Models for Question Answeringeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeTolias Georgios
theses.degree.disciplinePočítačové vidění a digitální obrazcze
theses.degree.grantorkatedra kybernetikycze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam