Poziční řízení kvadkoptéry s visící zátěží pomocí hlubokého posilovaného učení
Position Control of a Quadrotor with a Hanging Load Using Deep Reinforcement Learning
Typ dokumentu
diplomová prácemaster thesis
Autor
Tomáš Tichý
Vedoucí práce
Azayev Teymur
Oponent práce
Kuchař Michal
Studijní program
Kybernetika a robotikaInstituce přidělující hodnost
katedra kybernetikyPráva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zaměřuje na využití hlubokého posilovaného učení pro poziční řízení kvadrokoptéry s visící zátěží. Tento úkol je řešen pomocí metody proximal policy optimization, kde se přímo optimalizuje řidící policy reprezentovaná neuronovou sítí pomocí gradientního stoupání na kumulativní odměnu. Systém je trénován a testován pomocí fyzikálního simulátoru MuJoCo. Výsledná policy je schopna úspěšně stabilizovat kvadrokoptéru a sledovat referenční cílovou polohu. Toto je demonstrováno jak při použití úplných informací o stavu dronu, tak i při použití pouze částečných informací bez znalosti stavu zavěšené zátěže. Řízení při neúplné znalosti stavu je řešeno pomocí neuronové sítě pro odhad stavů, která je trénovaná učením s učitelem na datech o stavu kyvadla. Práce také zkoumá schopnost přizpůsobit se změnám parametrů modelu, s cílem zmírnit problém rozdílu mezi simulací a reálným světem. This thesis focuses on employing deep reinforcement learning to control the position of a quadcopter carrying a hanging load. The task is approached by using proximal policy optimization to directly optimize a control policy represented as a neural network using gradient ascent on the accumulated reward. The system is both trained and evaluated using the MuJoCo physics simulator. The resulting policy is capable of successfully stabilizing the quadcopter and following the reference setpoint position. This is demonstrated by using full state information and partial state information without knowledge of the suspended load state. The latter task is tackled by using a state estimator network trained via supervised learning on the pendulum states. Additionally, the thesis investigates the ability to adapt to changing model parameters, to help mitigate the Sim-to-Real gap.
Kolekce
- Diplomové práce - 13133 [474]