Synthetic data generation and training for LLM

Generování syntetických dat a trénink pro LLM

Supervisors

Reviewers

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Date of defense

2025-06-17

Research Projects

Organizational Units

Journal Issue

Abstract

Tato diplomová práce zkoumá využití velkých jazykových modelů (LLM) pro úlohy klasifikace textu v dialogových systémech. Hlavním cílem je zjistit, jak generování syntetických dat může zvýšit přesnost rozpoznání uživatelských instrukcí v oblasti mobilních telekomunikací a síťových služeb. Nejprve je menší LLM dolaďován metodou Low-Rank Adaptation (LoRA), čímž se stanoví výchozí základna. Na základě těchto výsledků se následně aplikuje supervizované dolaďování (SFT), které zpřesňuje trénovací data a zlepšuje schopnost modelu správně interpretovat a kategorizovat dotazy uživatelů. Nakonec se datová sada rozšíří o synteticky generované instrukce, aby se dále posílila výkonnost klasifikace. Během projektu jsou vytvářeny trénovací, validační a testovací sady, které umožňují hodnotit model v každé fázi. Měřením metrik, jako jsou přesnost, F1 skóre a ztráta, práce odhaluje přínosy i možná omezení použití syntetických dat při trénování LLM. Zjištěné výsledky ukazují, že strategické generování dat a iterativní dolaďování mohou významně zlepšit klasifikaci v dialogově orientovaných úlohách. Tato práce tak poskytuje praktický rámec pro využití syntetických dat k optimalizaci výkonnosti LLM a přináší cenné podněty pro další vývoj interaktivních systémů umělé inteligence.

This thesis explores the application of Large Language Models (LLMs) to text classification tasks within dialogue-based systems. The core objective is to investigate how synthetic data generation can improve the classification accuracy of user instructions in the context of mobile telecommunications and network services. Initially, a small LLM is fine-tuned using Low-Rank Adaptation (LoRA) to establish a baseline. Based on these results, Supervised Fine-Tuning (SFT) is used to refine the training data and improve the models ability to interpret and categorize user queries correctly. Finally, synthetic instruction sets are introduced to expand the dataset further and strengthen classification performance. Training, validation, and test sets are created throughout this project to evaluate the model at each stage. By measuring evaluation metrics like accuracy, F1, and loss, this work highlights the benefits and potential limitations of synthetic data in LLM training. The findings underscore that strategic data generation and iterative fine-tuning can significantly improve dialogue-based classification tasks. Ultimately, this thesis aims to provide a practical framework for using synthetic data to optimize LLM performance, offering valuable insights for future developments in interactive AI systems.

Description

Citation

Rights/License

Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.

A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.

Endorsement

Review

Supplemented By

Referenced By