Position Control of a Quadrotor with a Hanging Load Using Deep Reinforcement Learning

Poziční řízení kvadkoptéry s visící zátěží pomocí hlubokého posilovaného učení

Supervisors

Editors

Other contributors

Journal Title

Journal ISSN

Volume Title

Publisher

České vysoké učení technické v Praze
Czech Technical University in Prague

Research Projects

Organizational Units

Journal Issue

Abstract

Tato práce se zaměřuje na využití hlubokého posilovaného učení pro poziční řízení kvadrokoptéry s visící zátěží. Tento úkol je řešen pomocí metody proximal policy optimization, kde se přímo optimalizuje řidící policy reprezentovaná neuronovou sítí pomocí gradientního stoupání na kumulativní odměnu. Systém je trénován a testován pomocí fyzikálního simulátoru MuJoCo. Výsledná policy je schopna úspěšně stabilizovat kvadrokoptéru a sledovat referenční cílovou polohu. Toto je demonstrováno jak při použití úplných informací o stavu dronu, tak i při použití pouze částečných informací bez znalosti stavu zavěšené zátěže. Řízení při neúplné znalosti stavu je řešeno pomocí neuronové sítě pro odhad stavů, která je trénovaná učením s učitelem na datech o stavu kyvadla. Práce také zkoumá schopnost přizpůsobit se změnám parametrů modelu, s cílem zmírnit problém rozdílu mezi simulací a reálným světem.

This thesis focuses on employing deep reinforcement learning to control the position of a quadcopter carrying a hanging load. The task is approached by using proximal policy optimization to directly optimize a control policy represented as a neural network using gradient ascent on the accumulated reward. The system is both trained and evaluated using the MuJoCo physics simulator. The resulting policy is capable of successfully stabilizing the quadcopter and following the reference setpoint position. This is demonstrated by using full state information and partial state information without knowledge of the suspended load state. The latter task is tackled by using a state estimator network trained via supervised learning on the pendulum states. Additionally, the thesis investigates the ability to adapt to changing model parameters, to help mitigate the Sim-to-Real gap.

Description

Citation

Endorsement

Review

Supplemented By

Referenced By