Vyhledávací systém ve firemní dokumentaci

Jan Wenzel

Enterprise documentation search system

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Jan Wenzel

Vedoucí práce

Novák Jiří

Oponent práce

Hlásný Jiří

Studijní obor

Webové a softwarové inženýrství

Studijní program

Informatika, platnost do 2024

Instituce přidělující hodnost

katedra softwarového inženýrství

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Práce se zabývá návrhem a implementací webové aplikace pro vyhledávání ve firemní dokumentaci. Práce začíná analýzou stávajících metod pro vyhledávání v textu a rešerší existujících řešení. Jejich výhody a nevýhody jsou diskutovány jako základ pro návrh systému. Dále je navržena architektura backendu aplikace s důrazem na modulárnost, rozšiřitelnost a integraci s cloudovými úložišti. Implementované řešení využívá jazykové modely RoBERTa a Llama3, pro efektivní vyhledávání v rozsáhlém množství nestrukturovaných textových dokumentech. Aplikace, napsaná v jazyce Java, využívá Spring Boot framework a vystavuje REST API, pomocí kterého lze vyhledávat relevantní informace a převádět dokumenty na vektorovou reprezentaci, která se uloží ve vektorové databázi Qdrant. Implementované řešení podporuje komunikaci s dokumenty, uloženými v cloudovém úložišti Google Drive i přes UI rozhraní.

The thesis focuses on designing and implementing a web application for searching in enterprise documentation. The work begins with an analysis of existing text search methods and a review of current solutions. Their advantages and disadvantages are discussed as a basis for the system design. The application's backend architecture is also proposed, emphasizing modularity, scalability, and integration with cloud storage. The implemented solution utilizes RoBERTa and Llama3 language models to search through numerous unstructured text documents efficiently. The application, written in Java, uses the Spring Boot framework and exposes a REST API. This API enables searching for relevant information and converting documents from Google Drive into a vector representation stored in the Qdrant vector database. User interaction is also supported through a UI.