Posilované učení pro řízení letu roje bezpilotních vzdušných robotů
Reinforcement Learning for Swarm Control of Unmanned Aerial Vehicles
Typ dokumentu
bakalářská prácebachelor thesis
Autor
Karel Poncar
Vedoucí práce
Pěnička Robert
Oponent práce
Hurák Zdeněk
Studijní obor
Základy umělé inteligence a počítačových vědStudijní program
Otevřená informatikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zaměřuje na aplikaci technik posilového učení (RL) pro řízení letu skupiny bezpilotních leteckých prostředků (UAV). Jejím cílem je naučit se strategii, která umožní každému UAV ve skupině samostatně ovládat svůj let, proletět více cílových bodů v prostředí s překážkami a současně udržovat skupinu pohromadě. Pro tento účel byl vytvořen simulátor kvadrokoptér, který dokáže emulovat prostředí s překážkami a dynamikou těchto robotů. Simulátor je vybaven s standardizovaným rozhraním pro RL, které umožňuje komunikaci s RL knihovnami. V této bakalářkské práci zkoušíme učit strategie i na obtížnějších scénářích, kde jsou kvadrokoptéry zbaveny informace o své absolutní pozici v prostředí a jsou jim poskytována pozorování simulující 2D LiDAR. Úspěšnost naučených strategií je potom vyhodnocena ve scénáři, kdy kvadrokoptéry znají svoji absolutní pozici, a ve scénáři, kdy kvadrokoptéry mají místo polohy informace z LiDARu. Jsou zde také porovnávány naučené strategie s jiným projektem pro řízení skupiny UAV. K porovnávání jsou použity metriky jako rychlost kvadrokoptér a soudržnost skupiny. Celkově tato práce přispívá do oblasti řízení skupiny UAV pomocí RL a nabízí poznatky o problémech a příležitostech RL pro řešení tohoto problému. This thesis focuses on the application of reinforcement learning (RL) techniques for the flight control of Unmanned Aerial Vehicle (UAV) swarms. The objective is to learn policies that provide control inputs separately to each individual UAV in the swarm to fly through multiple waypoints in a cluttered environment while keeping the swarm coherent. For this reason, we create a quadrotor simulator, that has the ability to emulate the dynamics of quadrotors and the environment with obstacles. This simulator is integrated with a standardized interface for RL, allowing interaction with an RL library. A suitable RL algorithm is chosen to train policy on individual UAVs in the swarm to navigate through the cluttered environments. To simulate difficult scenarios, the quadrotors in the swarm are deprived of their absolute position in the environment and they are provided with observations that simulate 2D Light Detection and Ranging (LiDAR). The success rate of the trained policies is evaluated in a scenario where the RL algorithm is provided with known robots’ states (including the absolute position) and where the algorithm is provided with vision-based observations. Then, the performance of the proposed RL method is compared with another existing method for swarm control. Metrics such as success rate, the velocity of individual UAVs, and swarm cohesion are used to measure the effectiveness of the trained policies. Overall, this thesis contributes to the field of control of UAV swarms by exploring the RL techniques for this task. It provides insights into the challenges and opportunities of this approach for this problem.
Kolekce
- Bakalářské práce - 13133 [777]