• Český korpus pro velký jazykový model 

      Autor: Tommaso Gargiani; Vedoucí práce: Šedivý Jan; Oponent práce: Král Luboš
      (České vysoké učení technické v Praze. Vypočetní a informační centrum.Czech Technical University in Prague. Computing and Information Centre., 2024-06-18)
      Tato práce představuje vývoj největšího českého korpusu pro trénování velkých jazykových modelů, jenž obsahuje 167 miliard tokenů. Jeho rozmanité zdroje dat zajišťují komplexní pokrytí českého jazyka. Ke zvýšení kvality ...