Vizualizace extrakce témat Korpusu českého verše
Visualization of Themes Extraction for Corpus of Czech Verse
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Jonáš Sirko
Vedoucí práce
Friedjungová Magda
Oponent práce
Klouda Karel
Studijní obor
Znalostní inženýrstvíStudijní program
Informatika 2009Instituce přidělující hodnost
katedra aplikované matematikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato bakalářská práce se zabývá procesem vizualizace shlukovacích metod s důrazem na aplikaci v oblasti zpracování přirozeného jazyka, které jsou použity pro řešení nesupervizované úlohy shlukování za účelem extrakce témat a motivů z korpusu českého verše. V práci jsou představeny jak shlukovací metody samotné, tak možné způsoby jejich vizualizací. Tyto metody jsou dále aplikovány na vektorizovaný korpus českého verše a s pomocí vizualizací porovnány. This bachelor thesis deals with the visualization process of clustering methods with emphasis on the application in natural language processing, which are used to solve the unsupervised clustering task in order to perform a topic modeling on a corpus of Czech verse. The paper presents both the clustering methods themselves and possible ways of visualizing them. These methods are further applied to embedded corpus of Czech verse and compared with the help of visualizations.
Kolekce
- Bakalářské práce - 18105 [244]