Vyhledávací systém ve firemní dokumentaci
Enterprise documentation search system
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Jan Wenzel
Vedoucí práce
Novák Jiří
Oponent práce
Hlásný Jiří
Studijní obor
Webové a softwarové inženýrstvíStudijní program
Informatika, platnost do 2024Instituce přidělující hodnost
katedra softwarového inženýrstvíPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Práce se zabývá návrhem a implementací webové aplikace pro vyhledávání ve firemní dokumentaci. Práce začíná analýzou stávajících metod pro vyhledávání v textu a rešerší existujících řešení. Jejich výhody a nevýhody jsou diskutovány jako základ pro návrh systému. Dále je navržena architektura backendu aplikace s důrazem na modulárnost, rozšiřitelnost a integraci s cloudovými úložišti. Implementované řešení využívá jazykové modely RoBERTa a Llama3, pro efektivní vyhledávání v rozsáhlém množství nestrukturovaných textových dokumentech. Aplikace, napsaná v jazyce Java, využívá Spring Boot framework a vystavuje REST API, pomocí kterého lze vyhledávat relevantní informace a převádět dokumenty na vektorovou reprezentaci, která se uloží ve vektorové databázi Qdrant. Implementované řešení podporuje komunikaci s dokumenty, uloženými v cloudovém úložišti Google Drive i přes UI rozhraní. The thesis focuses on designing and implementing a web application for searching in enterprise documentation. The work begins with an analysis of existing text search methods and a review of current solutions. Their advantages and disadvantages are discussed as a basis for the system design. The application's backend architecture is also proposed, emphasizing modularity, scalability, and integration with cloud storage. The implemented solution utilizes RoBERTa and Llama3 language models to search through numerous unstructured text documents efficiently. The application, written in Java, uses the Spring Boot framework and exposes a REST API. This API enables searching for relevant information and converting documents from Google Drive into a vector representation stored in the Qdrant vector database. User interaction is also supported through a UI.
Kolekce
- Bakalářské práce - 18102 [1724]