Optimalizace LLM agentů pro analýzu tabulkových dat: Integrace LoRA pro zvýšení kvality
Optimizing LLM-Powered Agents for Tabular Data Analytics: Integrating LoRA for Enhanced Quality
Type of document
diplomová prácemaster thesis
Author
Mikhail Poludin
Supervisor
Šedivý Jan
Opponent
Král Luboš
Field of study
Umělá inteligenceStudy program
Otevřená informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Tato práce se zabývá problematikou analýzy tabulkových dat pomocí přirozeného jazyka se zaměřením na využití velkých jazykových modelů (LLM). Obsáhlý přehled literatury se zabývá různými aspekty LLM, včetně jejich programovacích schopností, LLM agentů a technik pro zvýšení kvality. Byl vyvinut program založený na LLM agentech, který je nyní veřejně dostupný na GitHub a tvoří základ experimentální části této práce. Bylo ručně vytvořeno a shromážděno několik datových sad pro doladění (fine-tuning) zaměřené na zvýšení výkonu malých open-source modelů v úloze analýzy tabulkových dat. Byl vytvořen hodnotící benchmark, který umožnil porovnání mnoha konfigurací LLM agentů, včetně těch, které využívají doladění pomocí metod LoRA a QLoRA a nejmodernější modely s přístupem přes API (Claude3 a GPT modely). Fine-tuning na modelové řadě Code Llama 7B, zejména na modelu Code Llama 7B Python, zlepšilo jeho výkon z 35,3% na 60,3% na navrženém hodnotícím benchmarku. Tato práce ukazuje, že specifické fine-tuning doladění pro danou úlohu může na malé datové sadě významně zvýšit výkon modelů. Všechny experimenty byly sledovány pomocí nástrojů MLOps, aby byla zajištěna jejich reprodukovatelnost. Celkově tato práce nabízí cenný srovnávací přehled použití systémů založených na LLM a souvisejících s nimi technik v úloze analýzy tabulkových dat. This thesis explores the problem of analyzing tabular data using natural language, focusing on the utilization of Large Language Models (LLMs). A comprehensive literature review addresses various aspects of LLMs, including their coding capabilities, LLM Agents, and techniques for enhancing generation quality. An LLM-based Agent program was developed and is now publicly available on GitHub, also forming the basis for the experimental part of this work. Several datasets were hand-crafted and collected to facilitate the fine-tuning aimed at enhancing the performance of small, open-source models in tabular data analysis tasks. An evaluation benchmark was created, allowing for the comparison of numerous LLM Agent configurations, including those using fine-tuned LLMs and state-of-the-art (SOTA) API-based models (i.e. Claude3 and GPT models). Fine-tuning was performed on the Code Llama 7B family of models using LoRA and QLoRA techniques, which improved the performance of the Code Llama 7B Python model from 35.3% to 60.3% on the proposed evaluation benchmark. This work demonstrates that task-specific Parameter-Efficient Fine-Tuning (PEFT) on a small dataset can significantly enhance performance of LLMs. All fine-tuning experiments were tracked using MLOps tools to ensure reproducibility. Overall, this work offers a valuable comparative review of the application of LLM-based systems and associated techniques in tabular data analysis.
Collections
- Diplomové práce - 13136 [892]