Modelování trhu sportovních předpovědí s optimalizací portfolia
Sports prediction market modeling with portfolio optimization
Type of document
disertační prácedoctoral thesis
Author
Ondřej Hubáček
Supervisor
Železný Filip
Opponent
Hvattum Lars Magnus
Field of study
Umělá inteligence a biokybernetikaStudy program
Elektrotechnika a informatikaInstitutions assigning rank
katedra počítačůRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Během poslední dekády došlo k nárůstu využívání modelů strojového učení, které přinesly revoluci v různych doménách, s významnými pokroky v oblastech jako rozpoznávání obrazu, posilované učení ve hrách, strojový překlad či generování jazyka.Tato disertační práce rozšiřuje aplikaci technik strojového učení na predikování, oblast, která zůstává relativně neprozkoumána.Konkrétně se zaměřujeme na predikci výsledků sportovních událostí a využívání těchto predikcí k obchodování na predikčních trzích.V počáteční fázi našeho výzkumu se zabýváme komplexním přehledem aktuálních poznatků ohledně modelování na základě výsledných skóre utkání.Navzdory existenci zdánlivě rozličných metod chybí jejich kvantitativní srovnání na velkém vzorku dat.Abychom toto srovnání doplnili, reimplementujeme a porovnáváme devět existujících modelů na největší veřejně dostupné datové sadě.Náš vyhodnocovací framework zajišťuje spravedlivé porovnání a odhalujeme, že prediktivní kapacita zkoumaných modelů je velmi podobná.Další analýza predikcí modelů naznačuje, že tato podobnost je převážně způsobena podobnostmi samotných predikcí těchto modelů.Po kvantitativním vyhodnocení stávajících modelů navrhujeme a implementujeme vlastní modely, založené na dvou odlišných přístupech.Jeden se spoléhá na pečlivě navržené příznaky odvozené ze skóre, zatímco druhý využívá relační strukturu dat.Klasifikátor založený na odvozených příznacích překonává stávající modely se značným odstupem ve všech zkoumaných metrikách.Integrací výstupu jednodušších modelů demonstrujeme flexibilitu klasifikátoru, který pomocí dalších příznaků dosahuje výrazného zlepšení.Navzdory těmto výsledkům náš model výrazně zaostává za predikcemi sázkových kanceláří, což naznačuje, že se neobejdeme bez komplexnejších modelů nebo přehodnocení celkového cíle dosažení univerzálně přesnějších předpovědí, než kterými disponuje trh.V další části přesouváme naši pozornost k obchodování našich predikcí na trzích.Navrhujeme neuronovou síť přizpůsobenou soutěži NBA, využívající detailní data o hráčích z každého zápasu.Odchylujeme se od konvenčního přístupu zaměřeného výlučně na přesnost predikcí a zavádíme koncept dekorelace jako metodu pro porážení trhů.Dále formálně definujeme často opomíjený koncept výhody tzv. market-takera.Tyto koncepty testujeme pomocí simulací a reálných dat.Výsledky jednoznačně dokazují účinnost navržených metod. Over the past decade, the surge in the use of machine learning models has revolutionized various domains, witnessing notable advancements in areas such as image recognition, reinforcement learning in games, machine translation, and language generation. This thesis extends the application of machine learning techniques to forecasting, a domain that remains relatively unexplored. Specifically, our focus is on predicting the outcomes of sports events and leveraging these predictions in trading on prediction markets.The initial phase of our investigation involves a comprehensive review of the state-of-the-art in score-based modeling.Despite the existence of seemingly diverse methods, a quantitative comparison on large-scale data is lacking.To address this gap, we reimplement and benchmark nine existing models using the largest publicly available dataset.Our evaluation framework ensures a fair comparison, revealing that the predictive performance of these models is remarkably similar.Further analysis of the predictions highlights that this similarity is predominantly due to inherent similarities in the prediction outputs.After establishing a baseline for our endeavor we designed and implemented our own models, testing two distinct approaches.One approach relies on carefully engineered score-derived features, while the other capitalizes on the relational structure of the data.The feature-based classifier outperforms state-of-the-art models by a significant margin across all examined metrics.We showcase the model's adaptability by seamlessly integrating outputs from a simpler model as additional inputs to the classifier, achieving notable improvements through feature engineering.Despite these advancements, our model lags significantly behind bookmakers' predictions, suggesting the need for more complex models or a reevaluation of the overarching goal of achieving universally more precise predictions than the market.Turning our attention to trading our predictions on the markets, we design a neural model tailored for the NBA competition, utilizing detailed player-level data from each game.Departing from the traditional accuracy-based approach to forecasting, we introduce the concept of decorrelation as a method for profiting on the markets using a model with inferior performance by conventional etrics.Additionally, we formalize the often-neglected concept of market taker's advantage.To validate these concepts, we subject them to testing through simulations and real-world data.The results demonstrate that the decorrelation is an effective way to achieve profits.
View/ Open
Collections
- Disertační práce - 13000 [706]