Optimization of Text Tokenization for Efficient Language Models Training
Optimalizace tokenizace textu pro efektivní trénování jazykových modelů
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-06-17
Abstract
Tokenizace je klíčovým krokem při přípravě textových dat pro trénování jazykových modelů. Tato práce zkoumá pokročilé strategie tokenizace, včetně integrace více tokenových proudů z různých algoritmů. Dále se zabývá kombinací podslovních a víceslovných jednotek s cílem zvýšit výpočetní efektivitu a snížit potřebu provádění úplných dopředných a zpětných průchodů pro každý token v trénovací datové sadě.
Tokenization is a critical step in preparing textual data for training language models. This thesis explores advanced tokenization strategies, including the integration of multiple token streams from diverse algorithms. Additionally, it investigates the combination of subword and multiword units to enhance computational efficiency and reduce the need for full forward and backward passes for every token in the training dataset.
Tokenization is a critical step in preparing textual data for training language models. This thesis explores advanced tokenization strategies, including the integration of multiple token streams from diverse algorithms. Additionally, it investigates the combination of subword and multiword units to enhance computational efficiency and reduce the need for full forward and backward passes for every token in the training dataset.
Description
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.