Optimization of Text Tokenization for Efficient Language Models Training

dc.contributor.advisor Herel, David
dc.contributor.author Haitota, Alina
dc.contributor.referee Hůla, Jan
dc.date.accepted 2025-06-17
dc.date.accessioned 2026-01-20T06:02:54Z
dc.date.issued 2025-05-23
dc.description.abstract Tokenizace je klíčovým krokem při přípravě textových dat pro trénování jazykových modelů. Tato práce zkoumá pokročilé strategie tokenizace, včetně integrace více tokenových proudů z různých algoritmů. Dále se zabývá kombinací podslovních a víceslovných jednotek s cílem zvýšit výpočetní efektivitu a snížit potřebu provádění úplných dopředných a zpětných průchodů pro každý token v trénovací datové sadě. cs
dc.description.abstract Tokenization is a critical step in preparing textual data for training language models. This thesis explores advanced tokenization strategies, including the integration of multiple token streams from diverse algorithms. Additionally, it investigates the combination of subword and multiword units to enhance computational efficiency and reduce the need for full forward and backward passes for every token in the training dataset. en
dc.identifier KOS-1243879611505
dc.identifier.uri https://hdl.handle.net/10467/178164
dc.language.iso eng
dc.publisher České vysoké učení technické v Praze cs
dc.publisher Czech Technical University in Prague en
dc.rights Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. cs
dc.rights A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. en
dc.subject Tokenizace cs
dc.subject Jazykové Modely cs
dc.subject Podslovo cs
dc.subject Víceslov cs
dc.subject Tokenové Toky cs
dc.subject Architektura DualStream cs
dc.subject Předzpracování Textu cs
dc.subject Tokenization en
dc.subject Language Models en
dc.subject Subword en
dc.subject Multiword en
dc.subject Token Streams en
dc.subject DualStream Architecture en
dc.subject Text Preprocessing en
dc.title Optimalizace tokenizace textu pro efektivní trénování jazykových modelů cs
dc.title Optimization of Text Tokenization for Efficient Language Models Training en
dc.type bachelor thesis en
dspace.entity.type Publication
relation.isAdvisorOfPublication d2dd40d2-9db3-4e39-9833-ecd46fa61311
relation.isAdvisorOfPublication.latestForDiscovery d2dd40d2-9db3-4e39-9833-ecd46fa61311
relation.isAuthorOfPublication bc98640c-9c23-45cd-9f9f-067a083a7253
relation.isAuthorOfPublication.latestForDiscovery bc98640c-9c23-45cd-9f9f-067a083a7253
theses.degree.grantor katedra kybernetiky cs
theses.degree.programme Otevřená informatika cs

Files

Original bundle

Now showing 1 - 5 of 5
Name:
F3-BP-2025-Haitota-Alina-Optimization_of_Text_Tokenization_for_Efficient_Language_Models_Training-1.pdf
Size:
1.1 MB
Format:
Adobe Portable Document Format
Description:
THESIS
Access level:
OPEN
Access rights:
openly accessible
Name:
Posudek oponenta na BP Aliny Haitoty.pdf
Size:
90.61 KB
Format:
Adobe Portable Document Format
Description:
REVIEW
Access level:
OPEN
Access rights:
openly accessible
Name:
Alina_posudek_vedouci.pdf
Size:
191.82 KB
Format:
Adobe Portable Document Format
Description:
REVIEW
Access level:
OPEN
Access rights:
openly accessible
Name:
Prubeh-obhajoby.pdf
Size:
614.22 KB
Format:
Adobe Portable Document Format
Description:
DEFENSE_PROCEEDINGS
Access level:
OPEN
Access rights:
openly accessible
Name:
F3-BP-2025-Haitota-Alina-priloha-Archive.zip
Size:
59.11 KB
Format:
Unknown data format
Description:
ATTACHMENT
Access level:
OPEN
Access rights:
openly accessible