Textová shrnutí medicínských záznamů

Jakub Monhart

Text summarization of medical records

Typ dokumentu

diplomová práce
master thesis

Autor

Jakub Monhart

Vedoucí práce

Drchal Jan

Oponent práce

Mařík Radek

Studijní obor

Umělá inteligence

Studijní program

Otevřená informatika

Instituce přidělující hodnost

katedra počítačů

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Zásadní součástí zdravotní péče je vytváření, zpracování a uchovávání kvalitní zdravotnické dokumentace. Tento proces je časově náročný a značně zatěžuje zdravotnický personál. Cílem této práce je prozkoumat možnost automatizace části tohoto procesu. Konkrétně se tato práce zaměřuje na automatické generování odstavce "Průběh hospitalizace" v propouštěcí zprávě, což je důležitý lékařský dokument pro zajištění kontinuity péče. V práci jsou použity dva české textové lékařské datasety ze dvou oddělení Institutu Klinické a Experimentální Medicíny (IKEM). Datasety jsou nejdříve zanalyzovány a zpracovány do vhodného formátu. Jako základ řešení úlohy jsou využity jazykové modely založené na architektuře Transformer, předtrénované na vícejazyčných datasetech. Tyto modely jsou dále učeny na našem datasetu zpracovaném do formátu vhodného pro sumarizaci textu. Jsou prozkoumány jak extraktivní, tak abstraktivní přístupy k sumarizaci textu. Všechny modely jsou hodnoceny pomocí automatických metrik. Ty ukazují, že abstraktivní metody fungují lépe v porovnání s těmi extraktivními. Dále je provedeno manuální hodnocení nejlepších abstraktivních modelů, které ukazuje, že modely generují průběh hospitalizace správně na více než 40% testovacích vzorcích. Manuální hodnocení dále ukazuje, že automatické metriky měřící kvalitu generovaného průběhu hospitalizace (v porovnání s průběhem hospitalizace napsaného lékařem) jsou konzistentní s manuálním ohodnocením, což ospravedlňuje jejich použití.

A vital part of healthcare is creating, processing and storing good quality medical documentation. The task is, however, time-consuming and burdens the medical care workers heavily. This thesis's goal is to explore the possible automation of part of this process. Concretely, it focuses on automatically generating the Hospitalization summarization paragraph of the Discharge report, an important medical document ensuring continuity of care. To this end, two Czech text medical datasets from two departments of the Institute for Clinical and Experimental Medicine (IKEM) are used. The datasets are analyzed and preprocessed for the task. Language models based on the Transformer architecture, pretrained on multilingual datasets are utilized. The models are further fine-tuned on the datasets, that are preprocessed for a text summarization task. Both extractive and abstractive text summarization approaches are explored. All the models are evaluated using automatic metrics. The automatic metrics show that abstractive summarization methods outperform the extractive ones on the task. Further, manual evaluation of the best performing abstractive summarization models is also conducted, showing that the models solve the task correctly on over 40% of the test samples. The manual evaluation also shows that the automatic metrics measuring the quality of the generated summary (using the summary written by the doctor as a reference) are consistent with the manually assigned quality labels, which justifies their use.