Optimization of Text Tokenization for Efficient Language Models Training
| dc.contributor.advisor | Herel, David | |
| dc.contributor.author | Haitota, Alina | |
| dc.contributor.referee | Hůla, Jan | |
| dc.date.accepted | 2025-06-17 | |
| dc.date.accessioned | 2026-01-20T06:02:54Z | |
| dc.date.issued | 2025-05-23 | |
| dc.description.abstract | Tokenizace je klíčovým krokem při přípravě textových dat pro trénování jazykových modelů. Tato práce zkoumá pokročilé strategie tokenizace, včetně integrace více tokenových proudů z různých algoritmů. Dále se zabývá kombinací podslovních a víceslovných jednotek s cílem zvýšit výpočetní efektivitu a snížit potřebu provádění úplných dopředných a zpětných průchodů pro každý token v trénovací datové sadě. | cs |
| dc.description.abstract | Tokenization is a critical step in preparing textual data for training language models. This thesis explores advanced tokenization strategies, including the integration of multiple token streams from diverse algorithms. Additionally, it investigates the combination of subword and multiword units to enhance computational efficiency and reduce the need for full forward and backward passes for every token in the training dataset. | en |
| dc.identifier | KOS-1243879611505 | |
| dc.identifier.uri | https://hdl.handle.net/10467/178164 | |
| dc.language.iso | eng | |
| dc.publisher | České vysoké učení technické v Praze | cs |
| dc.publisher | Czech Technical University in Prague | en |
| dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. | cs |
| dc.rights | A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. | en |
| dc.subject | Tokenizace | cs |
| dc.subject | Jazykové Modely | cs |
| dc.subject | Podslovo | cs |
| dc.subject | Víceslov | cs |
| dc.subject | Tokenové Toky | cs |
| dc.subject | Architektura DualStream | cs |
| dc.subject | Předzpracování Textu | cs |
| dc.subject | Tokenization | en |
| dc.subject | Language Models | en |
| dc.subject | Subword | en |
| dc.subject | Multiword | en |
| dc.subject | Token Streams | en |
| dc.subject | DualStream Architecture | en |
| dc.subject | Text Preprocessing | en |
| dc.title | Optimalizace tokenizace textu pro efektivní trénování jazykových modelů | cs |
| dc.title | Optimization of Text Tokenization for Efficient Language Models Training | en |
| dc.type | bachelor thesis | en |
| dspace.entity.type | Publication | |
| relation.isAdvisorOfPublication | d2dd40d2-9db3-4e39-9833-ecd46fa61311 | |
| relation.isAdvisorOfPublication.latestForDiscovery | d2dd40d2-9db3-4e39-9833-ecd46fa61311 | |
| relation.isAuthorOfPublication | bc98640c-9c23-45cd-9f9f-067a083a7253 | |
| relation.isAuthorOfPublication.latestForDiscovery | bc98640c-9c23-45cd-9f9f-067a083a7253 | |
| theses.degree.grantor | katedra kybernetiky | cs |
| theses.degree.programme | Otevřená informatika | cs |
Files
Original bundle
1 - 5 of 5
- Name:
- F3-BP-2025-Haitota-Alina-Optimization_of_Text_Tokenization_for_Efficient_Language_Models_Training-1.pdf
- Size:
- 1.1 MB
- Format:
- Adobe Portable Document Format
- Description:
- THESIS
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- Posudek oponenta na BP Aliny Haitoty.pdf
- Size:
- 90.61 KB
- Format:
- Adobe Portable Document Format
- Description:
- REVIEW
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- Alina_posudek_vedouci.pdf
- Size:
- 191.82 KB
- Format:
- Adobe Portable Document Format
- Description:
- REVIEW
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- Prubeh-obhajoby.pdf
- Size:
- 614.22 KB
- Format:
- Adobe Portable Document Format
- Description:
- DEFENSE_PROCEEDINGS
- Access level:
- OPEN
- Access rights:
- openly accessible
- Name:
- F3-BP-2025-Haitota-Alina-priloha-Archive.zip
- Size:
- 59.11 KB
- Format:
- Unknown data format
- Description:
- ATTACHMENT
- Access level:
- OPEN
- Access rights:
- openly accessible