Optimalizace tokenizace textu pro efektivní trénování jazykových modelů

Haitota, Alina

Optimization of Text Tokenization for Efficient Language Models Training

dc.contributor.advisor	Herel, David
dc.contributor.author	Haitota, Alina
dc.contributor.referee	Hůla, Jan
dc.date.accepted	2025-06-17
dc.date.accessioned	2026-01-20T06:02:54Z
dc.date.issued	2025-05-23
dc.description.abstract	Tokenizace je klíčovým krokem při přípravě textových dat pro trénování jazykových modelů. Tato práce zkoumá pokročilé strategie tokenizace, včetně integrace více tokenových proudů z různých algoritmů. Dále se zabývá kombinací podslovních a víceslovných jednotek s cílem zvýšit výpočetní efektivitu a snížit potřebu provádění úplných dopředných a zpětných průchodů pro každý token v trénovací datové sadě.	cs
dc.description.abstract	Tokenization is a critical step in preparing textual data for training language models. This thesis explores advanced tokenization strategies, including the integration of multiple token streams from diverse algorithms. Additionally, it investigates the combination of subword and multiword units to enhance computational efficiency and reduce the need for full forward and backward passes for every token in the training dataset.	en
dc.identifier	KOS-1243879611505
dc.identifier.uri	https://hdl.handle.net/10467/178164
dc.language.iso	eng
dc.publisher	České vysoké učení technické v Praze	cs
dc.publisher	Czech Technical University in Prague	en
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.	cs
dc.rights	A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.	en
dc.subject	Tokenizace	cs
dc.subject	Jazykové Modely	cs
dc.subject	Podslovo	cs
dc.subject	Víceslov	cs
dc.subject	Tokenové Toky	cs
dc.subject	Architektura DualStream	cs
dc.subject	Předzpracování Textu	cs
dc.subject	Tokenization	en
dc.subject	Language Models	en
dc.subject	Subword	en
dc.subject	Multiword	en
dc.subject	Token Streams	en
dc.subject	DualStream Architecture	en
dc.subject	Text Preprocessing	en
dc.title	Optimalizace tokenizace textu pro efektivní trénování jazykových modelů	cs
dc.title	Optimization of Text Tokenization for Efficient Language Models Training	en
dc.type	bachelor thesis	en
dspace.entity.type	Publication
relation.isAdvisorOfPublication	d2dd40d2-9db3-4e39-9833-ecd46fa61311
relation.isAdvisorOfPublication.latestForDiscovery	d2dd40d2-9db3-4e39-9833-ecd46fa61311
relation.isAuthorOfPublication	bc98640c-9c23-45cd-9f9f-067a083a7253
relation.isAuthorOfPublication.latestForDiscovery	bc98640c-9c23-45cd-9f9f-067a083a7253
theses.degree.grantor	katedra kybernetiky	cs
theses.degree.programme	Otevřená informatika	cs

Files

Original bundle

Now showing 1 - 5 of 5

Name:: F3-BP-2025-Haitota-Alina-Optimization_of_Text_Tokenization_for_Efficient_Language_Models_Training-1.pdf
Size:: 1.1 MB
Format:: Adobe Portable Document Format
Description:: THESIS
Access level:: OPEN
Access rights:: openly accessible

Download

Name:: Posudek oponenta na BP Aliny Haitoty.pdf
Size:: 90.61 KB
Format:: Adobe Portable Document Format
Description:: REVIEW
Access level:: OPEN
Access rights:: openly accessible

Download

Name:: Alina_posudek_vedouci.pdf
Size:: 191.82 KB
Format:: Adobe Portable Document Format
Description:: REVIEW
Access level:: OPEN
Access rights:: openly accessible

Download

Name:: Prubeh-obhajoby.pdf
Size:: 614.22 KB
Format:: Adobe Portable Document Format
Description:: DEFENSE_PROCEEDINGS
Access level:: OPEN
Access rights:: openly accessible

Download

Name:: F3-BP-2025-Haitota-Alina-priloha-Archive.zip
Size:: 59.11 KB
Format:: Unknown data format
Description:: ATTACHMENT
Access level:: OPEN
Access rights:: openly accessible

Download

Collections

Bachelor Theses - 13133