Lokální RAG pomocí velkých jazykových modelů na rozsáhlých textových korpusech

Jakub Kučera

Local Ratrieval Augmented Generation with Large Language Models on Extensive Text Coprora

Typ dokumentu

diplomová práce
master thesis

Autor

Jakub Kučera

Vedoucí práce

Kovalenko Alexander

Oponent práce

Čepek Miroslav

Studijní obor

Znalostní inženýrství

Studijní program

Informatika

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Velké jazykové modely (LLM) vynikají v mnoha jazykových úlohách, ale potýkají se s omezeným kontextem, zastaralými znalostmi a halucinacemi, zejména u dlouhých, oborově specifických textů. Cílem této práce bylo zlepšit výkon LLM v těchto případech integrací a srovnáváním RAG (Retrieval-Augmented Generation) metod, porovnáním vektorového vyhledávání a vyhledávání v znalostních grafech a vývojem vlastního hybridního RAG řešení pro rozhodnutí Nejvyššího správního soudu ČR. Experimenty využívaly jak standardní QA benchmarky, tak nový právní dataset vytvořený jako součást této práce s přesností a mírou halucinací hodnocenou pomocí LLM-as-a-Judge. Nejlepších výsledků u právních textů bylo dosaženo vlastní hybridní metodou vyhledávání (vektorové a klíčové vyhledávání s filtrováním vrácených dokumentů, alpha = 0.8), dosahující 61.8% upravené přesnosti z odhadovaného limitu 77.5% s modelem Llama 3.1 8B. Zahrnutí odkazovaných paragrafů a entit do vyhledávání i promptů zlepšilo výkon, zatímco načtení více než pěti pasáží nepřineslo žádné další zlepšení. Práce demonstruje, že optimalizované hybridní RAG systémy mohou významně zvýšit kvalitu odpovědí LLM pro složité, specializované úlohy, s potenciálním využitím v právních a dalších oblastech.

Large language models (LLMs) excel at many language tasks but struggle with limited context, outdated knowledge, and hallucinations, especially on long, domain-specific texts. This thesis aimed to improve LLM performance in those scenarios by integrating and benchmarking Retrieval-Augmented Generation (RAG) pipelines, comparing vector and knowledge graph retrieval, and developing a custom hybrid RAG solution for decisions of the Czech Supreme Administrative Court. Experiments used both standard QA benchmarks and a new legal dataset created as part of this thesis with accuracy and hallucination rates evaluated by LLM-as-a-Judge. The best results on legal texts were achieved by a custom hybrid retrieval method (vector and keyword search with retrieved documents filtering, alpha=0.8), reaching 61.8% adjusted accuracy out of 77.5% estimated limit with Llama 3.1 8B model. Including referenced paragraphs and entities in both retrieval and prompts improved performance, while retrieving more than five passages offered no additional benefit. The thesis demonstrates that optimized hybrid RAG systems can significantly enhance LLM answer quality for complex, specialized tasks, with potential applications in legal and other domains.