Synthetic data generation and training for LLM
Generování syntetických dat a trénink pro LLM
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-17
Abstract
Tato diplomová práce zkoumá využití velkých jazykových modelů (LLM) pro úlohy klasifikace textu v dialogových systémech. Hlavním cílem je zjistit, jak generování syntetických dat může zvýšit přesnost rozpoznání uživatelských instrukcí v oblasti mobilních telekomunikací a síťových služeb. Nejprve je menší LLM dolaďován metodou Low-Rank Adaptation (LoRA), čímž se stanoví výchozí základna. Na základě těchto výsledků se následně aplikuje supervizované dolaďování (SFT), které zpřesňuje trénovací data a zlepšuje schopnost modelu správně interpretovat a kategorizovat dotazy uživatelů. Nakonec se datová sada rozšíří o synteticky generované instrukce, aby se dále posílila výkonnost klasifikace.
Během projektu jsou vytvářeny trénovací, validační a testovací sady, které umožňují hodnotit model v každé fázi. Měřením metrik, jako jsou přesnost, F1 skóre a ztráta, práce odhaluje přínosy i možná omezení použití syntetických dat při trénování LLM. Zjištěné výsledky ukazují, že strategické generování dat a iterativní dolaďování mohou významně zlepšit klasifikaci v dialogově orientovaných úlohách. Tato práce tak poskytuje praktický rámec pro využití syntetických dat k optimalizaci výkonnosti LLM a přináší cenné podněty pro další vývoj interaktivních systémů umělé inteligence.
This thesis explores the application of Large Language Models (LLMs) to text classification tasks within dialogue-based systems. The core objective is to investigate how synthetic data generation can improve the classification accuracy of user instructions in the context of mobile telecommunications and network services. Initially, a small LLM is fine-tuned using Low-Rank Adaptation (LoRA) to establish a baseline. Based on these results, Supervised Fine-Tuning (SFT) is used to refine the training data and improve the models ability to interpret and categorize user queries correctly. Finally, synthetic instruction sets are introduced to expand the dataset further and strengthen classification performance. Training, validation, and test sets are created throughout this project to evaluate the model at each stage. By measuring evaluation metrics like accuracy, F1, and loss, this work highlights the benefits and potential limitations of synthetic data in LLM training. The findings underscore that strategic data generation and iterative fine-tuning can significantly improve dialogue-based classification tasks. Ultimately, this thesis aims to provide a practical framework for using synthetic data to optimize LLM performance, offering valuable insights for future developments in interactive AI systems.
This thesis explores the application of Large Language Models (LLMs) to text classification tasks within dialogue-based systems. The core objective is to investigate how synthetic data generation can improve the classification accuracy of user instructions in the context of mobile telecommunications and network services. Initially, a small LLM is fine-tuned using Low-Rank Adaptation (LoRA) to establish a baseline. Based on these results, Supervised Fine-Tuning (SFT) is used to refine the training data and improve the models ability to interpret and categorize user queries correctly. Finally, synthetic instruction sets are introduced to expand the dataset further and strengthen classification performance. Training, validation, and test sets are created throughout this project to evaluate the model at each stage. By measuring evaluation metrics like accuracy, F1, and loss, this work highlights the benefits and potential limitations of synthetic data in LLM training. The findings underscore that strategic data generation and iterative fine-tuning can significantly improve dialogue-based classification tasks. Ultimately, this thesis aims to provide a practical framework for using synthetic data to optimize LLM performance, offering valuable insights for future developments in interactive AI systems.
Description
Keywords
Generování Syntetických Dat, Velké Jazykové Modely (LLMs), Klasifikace Instrukcí, Telekomunikační Dialogové Systémy, Efektivní Ladění Parametrů (PEFT), Adaptace s Nízkou Hodností (LoRA), Supervizované Dolaďování (SFT), Generativní Předtrénovaný Transformátor (GPT), Synthetic Data Generation, Large Language Models (LLMs), Instruction Classification, Telecommunication Dialogue Systems, Parameter-Efficient Fine-Tuning (PEFT), Low-Rank Adaptation (LoRA), Supervised Fine-Tuning (SFT), Generative Pre-trained Transformer (GPT)
Citation
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.