ČVUT DSpace
  • Search DSpace
  • Čeština
  • Login
  • Čeština
  • Čeština
View Item 
  •   ČVUT DSpace
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Cybernetics
  • Master Theses - 13133
  • View Item
  • Czech Technical University in Prague
  • Faculty of Electrical Engineering
  • Department of Cybernetics
  • Master Theses - 13133
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Posilované učení pro agilní let bezpilotního vzdušného prostředku v neznámém prostředí s překážkami

Reinforcement Learning for Agile Flight of Unmanned Aerial Vehicle in Unknown Cluttered Environments

Type of document
diplomová práce
master thesis
Author
Jan Hřebec
Supervisor
Pěnička Robert
Opponent
Mašek David
Study program
Kybernetika a robotika
Institutions assigning rank
katedra kybernetiky
Defended
2025-06-11



Rights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item record
Abstract
Tato diplomová práce se zabývá navigací multirotorových dronů pomocí strojového učení, a to v neznámém prostředí s překážkami za použití pouze palubních senzorů. Navazujeme na předchozí PPO projekt, který využíval hrubé min-poolované hloubkové obrazy, a navrhujeme novou podobu stavu dronu, ve které jsou všechny vektory vyjádřeny v tělesové soustavě dronu. Dále systematicky porovnáváme šest různých metod zpracování hloubkového obrazu: min-pooling, lehký end-to-end CNN, dva konvoluční autoencodery, k-sparse β-VAE a ručně navržený geometrický heuristický extraktor. Všechny varianty byly trénovány po dobu 30 milionů kroků v prostředí vytvořeném v C++ a obaleném rozhraním Gymnasium. Výsledky v procedurálně generovaném lese ukazují, že nová definice stavu zkracuje potřebný počet trénovacích dat pro dosažení 80\% úspěšnosti na polovinu, a že CNN enkodér dosahuje nejlepší generalizace, když překonává původní min-pool projekt o pět procentních bodů. Autoencodery založené na rekonstrukci ani heuristický extraktor žádnou výhodu nepřinášejí. Natrénované politiky byly následně otestovány v realistickém simulačním prostředí Gazebo-ROS-MRS, kde se objevují výrazné oscilace kolem podélné a příčné osy způsobené nezohledněnými zpožděními aktuátorů a senzorů. Práce ukazuje, že promyšlený návrh pozorování a lehké, úlohově řízené modely pro zpracování obrazu zlepšují výkonnost v simulaci, ale pro překlenutí rozdílu mezi simulací a realitou je nutné zahrnout doménovou randomizaci nebo jiný přístup k problému.
 
This thesis investigates learning-based navigation for multirotor drones flying through unknown, cluttered environments using only onboard sensors. Building on a PPO baseline that relied on coarse min-pooled depth images, we redesign the proprioceptive state so that all vectors are expressed in the vehicles body frame and systematically compare six alternative depth-image encoders: min-pooling, a lightweight end-to-end CNN, two convolutional autoencoders, a k-sparse β-VAE, and a handcrafted geometric heuristic. All variants are trained for 30 million environment steps in a custom C++ simulator wrapped with Gymnasium. Results in a procedurally generated forest show that the new state description halves the data required to reach an 80 % success rate, while the CNN encoder achieves the best generalisation, outperforming the long-standing min-pool baseline by five percentage points. Reconstruction-based encoders and the heuristic extractor provide no advantage. Policies are then exported to the high-fidelity Gazebo-ROS-MRS stack, where uncontrolled pitchroll oscillations reveal a significant sim-to-sim transfer gap caused by unmodelled actuator and sensor delays. The study concludes that informed observation design and lightweight task-driven vision models improve simulation performance, but bridging the reality gap demands domain randomisation or different approaches.
 
URI
http://hdl.handle.net/10467/123091
View/Open
PLNY_TEXT (2.832Mb)
PRILOHA (2.498Mb)
PRILOHA (13.44Kb)
PRILOHA (48.36Mb)
POSUDEK (131.2Kb)
POSUDEK (244.4Kb)
Collections
  • Diplomové práce - 13133 [519]

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV
 

 

Useful links

CTU in PragueCentral library of CTUAbout CTU Digital LibraryResourcesStudy and library skillsResearch support

Browse

All of DSpaceCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

My Account

Login

České vysoké učení technické v Praze copyright © 2016 

DSpace software copyright © 2002-2016  Duraspace

Contact Us | Send Feedback
Theme by 
@mire NV