Using large language models for search in data catalogues

Využití velkých jazykových modelů pro vyhledávání v datových katalozích

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2026-01-28

Research Projects

Organizational Units

Journal Issue

Abstract

Tato práce představuje metody pro vyhledávání v datových katalozích. Zejména se zaměřujeme na generování SPARQL dotazů na základě otázek v přirozeném jazyce. Představujeme několik metod jak pro generování SPARQL dotazů, tak pro hledání relevantních datasetů, které využívají velké jazykové modely. Celkově jsme implementovali aplikaci, která překládá otázky v přirozeném jazyce do odpovídajícího SPARQL dotazu, včetně přiřazení relevantních datasetů. Experimenty byly provedeny na datovém katalogu NKOD (Národní katalog otevřených dat). Dále představujeme kvantitativní a kvalitativní evaluaci našich metod. Vytvořili jsme testovací dataset a zároveň naše aplikace byla testována odborníky z dané oblasti. Závěry této práce poskytují užitečný pohled na použitelnost velkých jazykových modelů pro úlohu vyhledávání v datových katalozích. Na základě těchto poznatků jsme vyvinuli komplexnější algoritmy než metody založené na RAG.

This work presents the pipelines for data catalogue search. In particular, it focuses on the generation of SPARQL queries based on natural-language questions. We present multiple methods, both for SPARQL query generation and dataset matching, that utilise Large Language Models. Overall, we have implemented an application that translates natural-language questions into corresponding SPARQL queries, including matching relevant datasets. The experiments have been performed on the NKOD (Národní katalog otevřených dat) data catalogue. We also present the quantitative and qualitative evaluation of our methods. We have developed the evaluation dataset, and our application has been tested by domain experts. The findings provide valuable insights into the applicability of Large Language Models for the task of data catalogue search. Building on these insights, we developed more complex pipelines beyond RAG-based methods.

Description

Citation

Underlying research data set URL

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Endorsement

Review

Supplemented By

Referenced By