Hluboké zpětnovazební učení na modifikovaném prostředí závodění aut

Vojtěch Sýkora

Deep Reinforcement Learning on a Modified Car Racing Environment

Typ dokumentu

bakalářská práce
bachelor thesis

Autor

Vojtěch Sýkora

Vedoucí práce

Chrpa Lukáš

Oponent práce

Suda Martin

Studijní obor

Základy umělé inteligence a počítačových věd

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra kybernetiky

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Oblast autonomních vozidel se v posledních letech rychle rozvíjí a společnosti a výzkumníci pracují na vývoji vozidel, která se dokáží pohybovat v komplexním prostředí bez zásahu člověka. Jedním z možných způsobů, jak takového výsledku dosáhnout, je využití zpětnovazebného učení. Za účelem prozkoumání této možnosti vyvinula společnost OpenAI prostředí pro 2D automobilové závody, které může sloužit jako testovací prostředí pro algoritmy autonomního řízení využívající techniky posilování učení. Prostředí poskytuje výzkumníkům fyziku reálného světa a spojitý akční prostor umožňující vývoj a testování bez nutnosti fyzických testovacích prostředí a drahého hardwaru. Jedním ze současných základních postupů v oblasti hlubokého zpětnovazebného učení je algoritmus Proximal Policy Optimization (PPO) vytvořený společností OpenAI. Ten si v poslední době získal popularitu díky své efektivitě v diskrétních i spojitých akčních prostorech a používá se i v modelech, jako je ChatGPT. V této práci upravíme prostředí automobilových závodů zavedením větru, který může kolísat v rychlosti a směru. Vítr může ovlivnit pohyb automobilu, a proto ho musí řidičský agent brát v úvahu. Budeme zkoumat, jak se algoritmus PPO efektivně přizpůsobí upravenému prostředí (s větrem). Empiricky vyhodnotíme PPO v původním a upraveném prostředí automobilových závodů, přičemž budeme zkoumat předem natrénované a nenatrénované agenty. Zkoumáním vlivu vnějšího a nepředvídatelného faktoru, jako je vítr, na učení našeho agenta chce tento projekt přispět k vývoji robustnějších a spolehlivějších autonomních vozidel.

The field of autonomous vehicles has been rapidly growing in recent years, with companies and researchers working on developing vehicles that can navigate complex environments without human intervention. One possible way of achieving such a feat is through the use of reinforcement learning. To explore this option, OpenAI has developed a 2D car racing environment that can serve as a testbed for autonomous driving algorithms which utilize reinforcement learning techniques. The environment provides researchers with real-life physics and a continuous action space enabling development and testing without the need for physical testing environments and expensive hardware. One of the current baselines in Deep Reinforcement Learning is the Proximal Policy Optimization (PPO) algorithm created by OpenAI. It has recently gained popularity thanks to its effectiveness in discrete and continuous action spaces and is being used even in models such as ChatGPT. In this thesis, we will modify the car racing environment by introducing wind that can fluctuate in speed and direction. Wind can affect the movement of the car, and hence the driving agent has to take it into consideration. We will investigate how the PPO algorithm effectively adapts to handle the modified environment (with the wind). We will empirically evaluate PPO in the original and modified car racing environments while investigating pre-trained and non-pre-trained agents. By investigating the impact of an outside and unpredictable factor such as wind on the learning of our agent, this project aims to contribute to the development of more robust and reliable self-driving vehicles.