Hodnoceni diskusních příspěvků mediálních zpráv

Luka Peraica

Evaluation of Media News Discussion Posts

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Luka Peraica

Vedoucí práce

Mařík Radek

Oponent práce

Drchal Jan

Studijní obor

Základy umělé inteligence a počítačových věd

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra kybernetiky

Obhájeno

2025-06-12

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Internetové diskuse často přitahují rušivé chování, jako je trolling, jehož cílem je provokovat nebo klamat uživatele. Tato bakalářská práce se zabývá detekcí trollů pomocí metod zpracování přirozeného jazyka (NLP), se zaměřením na komentáře uživatelů českého zpravodajského portálu Novinky.cz. Využívá transformer modely, konkrétně vícejazyčný model BERT, k přiřazení uživatelům kontinuálního skóre trollovitosti, což lépe vystihuje komplexitu online chování oproti tradičnímu binárnímu rozdělení. Model původně trénovaný na vícejazyčných datových sadách překonal tradiční metody, ale narazil na problémy při přenosu znalostí přímo na české komentáře. Další doladění pomocí malé anotované sady českých komentářů významně zvýšilo jeho efektivitu. Práci uzavírá shrnutí silných stránek metody a uznání jejích omezení.

Online discussions frequently attract disruptive behaviors such as trolling, intended to provoke or mislead users. This bachelor's thesis explores troll detection using Natural Language Processing (NLP), focusing on user comments from the Czech news site Novinky.cz. It employs transformer-based models, specifically multilingual BERT, to assign users a continuous "trolliness" score, rather than only a traditional binary classifications. Initially trained on multilingual datasets, the model outperformed traditional methods but faced challenges transferring knowledge directly to Czech comments. Further fine-tuning with a small annotated dataset of Czech comments significantly improved its effectiveness. The thesis concludes by highlighting the method's strengths and acknowledging limitations.