Předpověď statistik fotbalových zápasů založená na strojovém učení

Ondřej Herman

Machine Learning-Based Prediction of Football Match Statistics

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Ondřej Herman

Vedoucí práce

Da Silva Alves Rodrigo Augusto

Oponent práce

Kasalický Petr

Studijní obor

Znalostní inženýrství

Studijní program

Informatika 2009

Instituce přidělující hodnost

katedra aplikované matematiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Fotbal, nejrozšířenější a nejsledovanější sport na světě, poutá pozornost miliard fanoušků po celém světe. Předpovídání výsledků zápasů se dostalo pozornosti statistiků, výzkumníků strojového učení a nadšených sázkařů. Nicméně, zatímco byl učiněn podstatný pokrok ve strojovém učení pro předpověď výsledků zápasů, relativně malý důraz byl kladen na předpovídání statistických aspektů daných zápasů. Tato studie si klade za cíl řešit tento nedostatek prozkoumáním metod strojového učení k analýze a odhadu různých statistik jako regresních problémů. Konkrétně zkoumám šest statistik: rohy, střely, střely na branku, fauly, žluté karty a červené karty. Prováděním experimentů na čtyřech datových souborech z různých fotbalových lig postupně porovnám a vyhodnotím výsledky osmi různých modelů. Má zjištění ukazují, že různé metody se více hodí na určité statistiky a také, že různé statistiky vykazují různé chování v různých ligách. Kromě toho jsem si všiml, že určité vlastnosti, jako je počet rohů nebo střel, jsou předvídatelnější díky jejich vyšší míře výskytu během zápasů ve srovnání například s počtem karet.

Football, the most widely played and followed sport globally, captivates billions of fans worldwide. The significance of predicting match outcomes has garnered attention from statisticians, machine learning researchers, and avid bettors alike. However, while substantial progress has been made in machine learning for outcome prediction, relatively little focus has been placed on forecasting the statistical aspects of the sport. This study aims to address this gap by exploring machine learning methods to analyze and estimate various match statistics as regression problems. Specifically, I investigate six statistics: corners, shots, shots on target, fouls, yellow cards, and red cards. By conducting experiments on four datasets from different football leagues, I evaluate the performance of eight models. My findings reveal that different methods adapt better to certain statistics, and also that some statistics exhibit different behaviors across leagues. Additionally, I observe that certain features, such as the number of corners or shots, are more predictable due to their higher occurrence rates during matches compared to the number of cards.