Zobrazit minimální záznam

Text summarization of medical records



dc.contributor.advisorDrchal Jan
dc.contributor.authorJakub Monhart
dc.date.accessioned2024-06-18T10:41:23Z
dc.date.available2024-06-18T10:41:23Z
dc.date.issued2024-06-13
dc.identifierKOS-1240946704405
dc.identifier.urihttp://hdl.handle.net/10467/115005
dc.description.abstractZásadní součástí zdravotní péče je vytváření, zpracování a uchovávání kvalitní zdravotnické dokumentace. Tento proces je časově náročný a značně zatěžuje zdravotnický personál. Cílem této práce je prozkoumat možnost automatizace části tohoto procesu. Konkrétně se tato práce zaměřuje na automatické generování odstavce "Průběh hospitalizace" v propouštěcí zprávě, což je důležitý lékařský dokument pro zajištění kontinuity péče. V práci jsou použity dva české textové lékařské datasety ze dvou oddělení Institutu Klinické a Experimentální Medicíny (IKEM). Datasety jsou nejdříve zanalyzovány a zpracovány do vhodného formátu. Jako základ řešení úlohy jsou využity jazykové modely založené na architektuře Transformer, předtrénované na vícejazyčných datasetech. Tyto modely jsou dále učeny na našem datasetu zpracovaném do formátu vhodného pro sumarizaci textu. Jsou prozkoumány jak extraktivní, tak abstraktivní přístupy k sumarizaci textu. Všechny modely jsou hodnoceny pomocí automatických metrik. Ty ukazují, že abstraktivní metody fungují lépe v porovnání s těmi extraktivními. Dále je provedeno manuální hodnocení nejlepších abstraktivních modelů, které ukazuje, že modely generují průběh hospitalizace správně na více než 40% testovacích vzorcích. Manuální hodnocení dále ukazuje, že automatické metriky měřící kvalitu generovaného průběhu hospitalizace (v porovnání s průběhem hospitalizace napsaného lékařem) jsou konzistentní s manuálním ohodnocením, což ospravedlňuje jejich použití.cze
dc.description.abstractA vital part of healthcare is creating, processing and storing good quality medical documentation. The task is, however, time-consuming and burdens the medical care workers heavily. This thesis's goal is to explore the possible automation of part of this process. Concretely, it focuses on automatically generating the Hospitalization summarization paragraph of the Discharge report, an important medical document ensuring continuity of care. To this end, two Czech text medical datasets from two departments of the Institute for Clinical and Experimental Medicine (IKEM) are used. The datasets are analyzed and preprocessed for the task. Language models based on the Transformer architecture, pretrained on multilingual datasets are utilized. The models are further fine-tuned on the datasets, that are preprocessed for a text summarization task. Both extractive and abstractive text summarization approaches are explored. All the models are evaluated using automatic metrics. The automatic metrics show that abstractive summarization methods outperform the extractive ones on the task. Further, manual evaluation of the best performing abstractive summarization models is also conducted, showing that the models solve the task correctly on over 40% of the test samples. The manual evaluation also shows that the automatic metrics measuring the quality of the generated summary (using the summary written by the doctor as a reference) are consistent with the manually assigned quality labels, which justifies their use.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectStrojové učenícze
dc.subjectZpracování přirozeného jazykacze
dc.subjectSumarizacecze
dc.subjectAbstraktivní sumarizacecze
dc.subjectExtraktivní sumarizacecze
dc.subjectZdravotnická dokumnetacecze
dc.subjectMachine Learningeng
dc.subjectNatural Language Processingeng
dc.subjectSummarizationeng
dc.subjectAbstractive Summarizationeng
dc.subjectExtractive Summarizationeng
dc.subjectMedical Documentationeng
dc.titleTextová shrnutí medicínských záznamůcze
dc.titleText summarization of medical recordseng
dc.typediplomová prácecze
dc.typemaster thesiseng
dc.contributor.refereeMařík Radek
theses.degree.disciplineUmělá inteligencecze
theses.degree.grantorkatedra počítačůcze
theses.degree.programmeOtevřená informatikacze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam