Zobrazit minimální záznam

Evaluation of recommendations for LLM prompt engineering



dc.contributor.advisorLisý Viliam
dc.contributor.authorBoris Rakovan
dc.date.accessioned2024-06-19T09:57:04Z
dc.date.available2024-06-19T09:57:04Z
dc.date.issued2024-06-18
dc.identifierKOS-1243608786905
dc.identifier.urihttp://hdl.handle.net/10467/115754
dc.description.abstractPrompt engineering je klíčovou dovedností pro efektivní využití velkých jazykových modelů (LLM). Navzdory mnoha online zdrojům nabízejícím doporučení ohledně prompt engineeringu jsou tyto doporučení zřídka důkladně otestovány nebo srovnány s alternativami. Tato práce navrhuje důkladnou metodiku pro otestování různých prompt engineering doporučení a testuje čtyři různá doporučení nalezená v online literatuře napříč třemi různými evaluačními úlohami z oblasti zpracování přirozeného jazyka. Experimenty jsou prováděny na pěti state-of-the-art jazykových modelech (GPT-3.5, LLaMA 7B, LLaMA 13B, LLaMA 70B a Gemini 1.0 Pro). Přínos této práce je dvojí: za prvé, testuje efektivitu stávajících doporučení pro prompt engineering; za druhé, představuje komplexní framework pro testování promptů, který je snadno rozšiřitelný na různá doporučení, evaluační úlohy a modely. Ukáže se, že žádné ze čtyř doporučení konzistentně neovlivňuje kvalitu výsledků, což naznačuje, že uživatelé LLM nemusí při navrhování promptů striktně dodržovat tyto pokyny.cze
dc.description.abstractPrompt engineering is a crucial skill for the efficient use of large language models (LLMs). Despite many online resources offering recommendations on prompt engineering, these guidelines are rarely rigorously evaluated or compared against alternatives. This thesis proposes a rigorous methodology for evaluating different prompt engineering recommendations and tests four prevalent recommendations found in online literature across three different evaluation tasks from the natural language processing domain. Experiments are conducted on five state-of-the-art LLMs (GPT-3.5, LLaMA 7B, LLaMA 13B, LLaMA 70B and Gemini 1.0 Pro). The contribution of this thesis is twofold: first, it tests the efficiency of existing prompt engineering recommendations; second, it introduces a comprehensive framework for prompt evaluation that is easily extensible to various recommendations, evaluation tasks, and LLM models. We show that none of the four recommendations consistently impacts the result quality, indicating LLM users do not need to strictly adhere to these guidelines when designing prompts.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectzpracování přirozeného jazykacze
dc.subjectvelké jazykové modelycze
dc.subjectprompt inženýrstvícze
dc.subjectklasifikace textucze
dc.subjectnatural language processingeng
dc.subjectlarge language modelseng
dc.subjectprompt engineeringeng
dc.subjecttext classificationeng
dc.titleVyhodnocení doporučení pro psaní dotazů na velké jazykové modelycze
dc.titleEvaluation of recommendations for LLM prompt engineeringeng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeDrchal Jan
theses.degree.disciplineDatové vědycze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam