Using large language models for search in data catalogues
Využití velkých jazykových modelů pro vyhledávání v datových katalozích
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2026-01-28
Abstract
Tato práce představuje metody pro vyhledávání v datových katalozích. Zejména se zaměřujeme na generování SPARQL dotazů na základě otázek v přirozeném jazyce. Představujeme několik metod jak pro generování SPARQL dotazů, tak pro hledání relevantních datasetů, které využívají velké jazykové modely. Celkově jsme implementovali aplikaci, která překládá otázky v přirozeném jazyce do odpovídajícího SPARQL dotazu, včetně přiřazení relevantních datasetů. Experimenty byly provedeny na datovém katalogu NKOD (Národní katalog otevřených dat). Dále představujeme kvantitativní a kvalitativní evaluaci našich metod. Vytvořili jsme testovací dataset a zároveň naše aplikace byla testována odborníky z dané oblasti. Závěry této práce poskytují užitečný pohled na použitelnost velkých jazykových modelů pro úlohu vyhledávání v datových katalozích. Na základě těchto poznatků jsme vyvinuli komplexnější algoritmy než metody založené na RAG.
This work presents the pipelines for data catalogue search. In particular, it focuses on the generation of SPARQL queries based on natural-language questions. We present multiple methods, both for SPARQL query generation and dataset matching, that utilise Large Language Models. Overall, we have implemented an application that translates natural-language questions into corresponding SPARQL queries, including matching relevant datasets. The experiments have been performed on the NKOD (Národní katalog otevřených dat) data catalogue. We also present the quantitative and qualitative evaluation of our methods. We have developed the evaluation dataset, and our application has been tested by domain experts. The findings provide valuable insights into the applicability of Large Language Models for the task of data catalogue search. Building on these insights, we developed more complex pipelines beyond RAG-based methods.
This work presents the pipelines for data catalogue search. In particular, it focuses on the generation of SPARQL queries based on natural-language questions. We present multiple methods, both for SPARQL query generation and dataset matching, that utilise Large Language Models. Overall, we have implemented an application that translates natural-language questions into corresponding SPARQL queries, including matching relevant datasets. The experiments have been performed on the NKOD (Národní katalog otevřených dat) data catalogue. We also present the quantitative and qualitative evaluation of our methods. We have developed the evaluation dataset, and our application has been tested by domain experts. The findings provide valuable insights into the applicability of Large Language Models for the task of data catalogue search. Building on these insights, we developed more complex pipelines beyond RAG-based methods.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.