Posilované učení pro agilní let bezpilotního vzdušného prostředku v neznámém prostředí s překážkami

Jan Hřebec

Reinforcement Learning for Agile Flight of Unmanned Aerial Vehicle in Unknown Cluttered Environments

Type of document

diplomová práce
master thesis

Author

Jan Hřebec

Supervisor

Pěnička Robert

Opponent

Mašek David

Study program

Kybernetika a robotika

Institutions assigning rank

katedra kybernetiky

Defended

2025-06-11

Rights

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Show full item record

Abstract

Tato diplomová práce se zabývá navigací multirotorových dronů pomocí strojového učení, a to v neznámém prostředí s překážkami za použití pouze palubních senzorů. Navazujeme na předchozí PPO projekt, který využíval hrubé min-poolované hloubkové obrazy, a navrhujeme novou podobu stavu dronu, ve které jsou všechny vektory vyjádřeny v tělesové soustavě dronu. Dále systematicky porovnáváme šest různých metod zpracování hloubkového obrazu: min-pooling, lehký end-to-end CNN, dva konvoluční autoencodery, k-sparse β-VAE a ručně navržený geometrický heuristický extraktor. Všechny varianty byly trénovány po dobu 30 milionů kroků v prostředí vytvořeném v C++ a obaleném rozhraním Gymnasium. Výsledky v procedurálně generovaném lese ukazují, že nová definice stavu zkracuje potřebný počet trénovacích dat pro dosažení 80\% úspěšnosti na polovinu, a že CNN enkodér dosahuje nejlepší generalizace, když překonává původní min-pool projekt o pět procentních bodů. Autoencodery založené na rekonstrukci ani heuristický extraktor žádnou výhodu nepřinášejí. Natrénované politiky byly následně otestovány v realistickém simulačním prostředí Gazebo-ROS-MRS, kde se objevují výrazné oscilace kolem podélné a příčné osy způsobené nezohledněnými zpožděními aktuátorů a senzorů. Práce ukazuje, že promyšlený návrh pozorování a lehké, úlohově řízené modely pro zpracování obrazu zlepšují výkonnost v simulaci, ale pro překlenutí rozdílu mezi simulací a realitou je nutné zahrnout doménovou randomizaci nebo jiný přístup k problému.

This thesis investigates learning-based navigation for multirotor drones flying through unknown, cluttered environments using only onboard sensors. Building on a PPO baseline that relied on coarse min-pooled depth images, we redesign the proprioceptive state so that all vectors are expressed in the vehicles body frame and systematically compare six alternative depth-image encoders: min-pooling, a lightweight end-to-end CNN, two convolutional autoencoders, a k-sparse β-VAE, and a handcrafted geometric heuristic. All variants are trained for 30 million environment steps in a custom C++ simulator wrapped with Gymnasium. Results in a procedurally generated forest show that the new state description halves the data required to reach an 80 % success rate, while the CNN encoder achieves the best generalisation, outperforming the long-standing min-pool baseline by five percentage points. Reconstruction-based encoders and the heuristic extractor provide no advantage. Policies are then exported to the high-fidelity Gazebo-ROS-MRS stack, where uncontrolled pitchroll oscillations reveal a significant sim-to-sim transfer gap caused by unmodelled actuator and sensor delays. The study concludes that informed observation design and lightweight task-driven vision models improve simulation performance, but bridging the reality gap demands domain randomisation or different approaches.