Prohlížení katedra počítačů dle autora "Tommaso Gargiani"
-
Český korpus pro velký jazykový model
Autor: Tommaso Gargiani; Vedoucí práce: Šedivý Jan; Oponent práce: Král Luboš
(České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2024-06-18)Tato práce představuje vývoj největšího českého korpusu pro trénování velkých jazykových modelů, jenž obsahuje 167 miliard tokenů. Jeho rozmanité zdroje dat zajišťují komplexní pokrytí českého jazyka. Ke zvýšení kvality ...