Využití velkých jazykových modelů pro vyhledávání v datových katalozích

Tato práce představuje metody pro vyhledávání v datových katalozích. Zejména se zaměřujeme na generování SPARQL dotazů na základě otázek v přirozeném jazyce. Představujeme několik metod jak pro generování SPARQL dotazů, tak pro hledání relevantních datasetů, které využívají velké jazykové modely. Celkově jsme implementovali aplikaci, která překládá otázky v přirozeném jazyce do odpovídajícího SPARQL dotazu, včetně přiřazení relevantních datasetů. Experimenty byly provedeny na datovém katalogu NKOD (Národní katalog otevřených dat). Dále představujeme kvantitativní a kvalitativní evaluaci našich metod. Vytvořili jsme testovací dataset a zároveň naše aplikace byla testována odborníky z dané oblasti. Závěry této práce poskytují užitečný pohled na použitelnost velkých jazykových modelů pro úlohu vyhledávání v datových katalozích. Na základě těchto poznatků jsme vyvinuli komplexnější algoritmy než metody založené na RAG.

This work presents the pipelines for data catalogue search. In particular, it focuses on the generation of SPARQL queries based on natural-language questions. We present multiple methods, both for SPARQL query generation and dataset matching, that utilise Large Language Models. Overall, we have implemented an application that translates natural-language questions into corresponding SPARQL queries, including matching relevant datasets. The experiments have been performed on the NKOD (Národní katalog otevřených dat) data catalogue. We also present the quantitative and qualitative evaluation of our methods. We have developed the evaluation dataset, and our application has been tested by domain experts. The findings provide valuable insights into the applicability of Large Language Models for the task of data catalogue search. Building on these insights, we developed more complex pipelines beyond RAG-based methods.

Keywords

zpracování přirozeného jazyka, datové katalogy, RAG, generování SPARQL dotazů, Národní katalog otevřených dat, natural language processing, data catalogues, RAG, generation of SPARQL queries, National open data catalogue

Permanent link

https://hdl.handle.net/10467/178386

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Collections

Master Theses - 13136

Full item page

Using large language models for search in data catalogues