Použití LZW pro kompresi a indexaci velmi podobných řetězců
Compressing and Indexing Highly Similar Strings using LZW
Typ dokumentu
diplomová prácemaster thesis
Autor
Perutka Ondřej
Vedoucí práce
Holub Jan
Oponent práce
Procházka Petr
Studijní obor
Systémové programováníStudijní program
InformatikaInstituce přidělující hodnost
katedra teoretické informatikyObhájeno
2015-06-11Práva
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdfVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://www.cvut.cz/sites/default/files/content/d1dc93cd-5894-4521-b799-c7e715d3c59e/cs/20160901-metodicky-pokyn-c-12009-o-dodrzovani-etickych-principu-pri-priprave-vysokoskolskych.pdf
Metadata
Zobrazit celý záznamAbstrakt
Tato práce se zabývá vývojem nové kompresní metody založené na LZW
a zarovnání řetězců. Algoritmus je pojmenován ALZW a je navržen pro kompresi
velmi podobných řetězců. Daná množina řetězců je komprimována pomocí předem
určeného referenčního řetězce. V porovnání s podobně zaměřeným RLZ a všeobecně
použitelným GZipem umožňuje ALZW velmi rychlou kompresi a pro podobné genetické
sekvence dosahuje dobrých kompresních poměrů. V případě lidského chromozomu 20
dosahuje algoritmus dokonce lepších výsledků, něž podobně zaměřený
algoritmus RLZ. A new compression method based on LZW and sequence alignment is
presented in this thesis. The algorithm is called ALZW and it is designed for
compression of Highly Similar Strings. Strings in a given set are
compressed relatively to a given reference sequence. Compared to similarly
targeted RLZ and general purpose GZip, the algorithm offers very fast
compression and it achieves good compression ratios for similar genomic
sequences. It is even able to outperform the RLZ algorithm in case of human
chromosome 20.
Kolekce
- Diplomové práce - 18101 [221]