Vyhodnocení doporučení pro psaní dotazů na velké jazykové modely

Boris Rakovan

Evaluation of recommendations for LLM prompt engineering

Typ dokumentu

diplomová práce
master thesis

Autor

Boris Rakovan

Vedoucí práce

Lisý Viliam

Oponent práce

Drchal Jan

Studijní obor

Datové vědy

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Prompt engineering je klíčovou dovedností pro efektivní využití velkých jazykových modelů (LLM). Navzdory mnoha online zdrojům nabízejícím doporučení ohledně prompt engineeringu jsou tyto doporučení zřídka důkladně otestovány nebo srovnány s alternativami. Tato práce navrhuje důkladnou metodiku pro otestování různých prompt engineering doporučení a testuje čtyři různá doporučení nalezená v online literatuře napříč třemi různými evaluačními úlohami z oblasti zpracování přirozeného jazyka. Experimenty jsou prováděny na pěti state-of-the-art jazykových modelech (GPT-3.5, LLaMA 7B, LLaMA 13B, LLaMA 70B a Gemini 1.0 Pro). Přínos této práce je dvojí: za prvé, testuje efektivitu stávajících doporučení pro prompt engineering; za druhé, představuje komplexní framework pro testování promptů, který je snadno rozšiřitelný na různá doporučení, evaluační úlohy a modely. Ukáže se, že žádné ze čtyř doporučení konzistentně neovlivňuje kvalitu výsledků, což naznačuje, že uživatelé LLM nemusí při navrhování promptů striktně dodržovat tyto pokyny.

Prompt engineering is a crucial skill for the efficient use of large language models (LLMs). Despite many online resources offering recommendations on prompt engineering, these guidelines are rarely rigorously evaluated or compared against alternatives. This thesis proposes a rigorous methodology for evaluating different prompt engineering recommendations and tests four prevalent recommendations found in online literature across three different evaluation tasks from the natural language processing domain. Experiments are conducted on five state-of-the-art LLMs (GPT-3.5, LLaMA 7B, LLaMA 13B, LLaMA 70B and Gemini 1.0 Pro). The contribution of this thesis is twofold: first, it tests the efficiency of existing prompt engineering recommendations; second, it introduces a comprehensive framework for prompt evaluation that is easily extensible to various recommendations, evaluation tasks, and LLM models. We show that none of the four recommendations consistently impacts the result quality, indicating LLM users do not need to strictly adhere to these guidelines when designing prompts.