Vyhodnocení doporučení pro psaní dotazů na velké jazykové modely
Evaluation of recommendations for LLM prompt engineering
Typ dokumentu
diplomová prácemaster thesis
Autor
Boris Rakovan
Vedoucí práce
Lisý Viliam
Oponent práce
Drchal Jan
Studijní obor
Datové vědyStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra počítačůPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Prompt engineering je klíčovou dovedností pro efektivní využití velkých jazykových modelů (LLM). Navzdory mnoha online zdrojům nabízejícím doporučení ohledně prompt engineeringu jsou tyto doporučení zřídka důkladně otestovány nebo srovnány s alternativami. Tato práce navrhuje důkladnou metodiku pro otestování různých prompt engineering doporučení a testuje čtyři různá doporučení nalezená v online literatuře napříč třemi různými evaluačními úlohami z oblasti zpracování přirozeného jazyka. Experimenty jsou prováděny na pěti state-of-the-art jazykových modelech (GPT-3.5, LLaMA 7B, LLaMA 13B, LLaMA 70B a Gemini 1.0 Pro). Přínos této práce je dvojí: za prvé, testuje efektivitu stávajících doporučení pro prompt engineering; za druhé, představuje komplexní framework pro testování promptů, který je snadno rozšiřitelný na různá doporučení, evaluační úlohy a modely. Ukáže se, že žádné ze čtyř doporučení konzistentně neovlivňuje kvalitu výsledků, což naznačuje, že uživatelé LLM nemusí při navrhování promptů striktně dodržovat tyto pokyny. Prompt engineering is a crucial skill for the efficient use of large language models (LLMs). Despite many online resources offering recommendations on prompt engineering, these guidelines are rarely rigorously evaluated or compared against alternatives. This thesis proposes a rigorous methodology for evaluating different prompt engineering recommendations and tests four prevalent recommendations found in online literature across three different evaluation tasks from the natural language processing domain. Experiments are conducted on five state-of-the-art LLMs (GPT-3.5, LLaMA 7B, LLaMA 13B, LLaMA 70B and Gemini 1.0 Pro). The contribution of this thesis is twofold: first, it tests the efficiency of existing prompt engineering recommendations; second, it introduces a comprehensive framework for prompt evaluation that is easily extensible to various recommendations, evaluation tasks, and LLM models. We show that none of the four recommendations consistently impacts the result quality, indicating LLM users do not need to strictly adhere to these guidelines when designing prompts.
Kolekce
- Diplomové práce - 13136 [892]