Analýza argumentov Najvyššieho amerického súdu pomocou techník spracovania prirodzeného jazyka

Polák Lukáš

Analyzing Supreme Court Oral Arguments with Natural Language Processing

Typ dokumentu

diplomová práce
master thesis

Autor

Polák Lukáš

Vedoucí práce

Webb Nicholas

Oponent práce

Dojčinovski Milan

Studijní obor

Znalostní inženýrství

Studijní program

Informatika

Instituce přidělující hodnost

katedra teoretické informatiky

Obhájeno

2017-02-14

Práva

A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html

Metadata

Zobrazit celý záznam

Abstrakt

Táto práca používá jednoduché techniky NLP pre natrénovanie modelu schopného predpovedať rozhodnutie prípadu vypočutého Najvyšším Americkým Súdom na základe analýzy ústneho pojednávania súdu. Pokúša sa ukázať, že jednoduché techniky dokážu poskytnúť relevantné výsledky na komplexných problémoch. Preto oba modely vyvinuté v tejto práci ich preferujú. Prvá časť práce sa zameriavan a natrénovanie jednoduchého doménovo nezávislého modelu detekcie sentimentu na úrovni jednotlivých viet. Model je natrénovaný na korpuse MPQA, pretože obsahuje dokumenty z rozličných domén. Vety boli označkované hodnotiacim algoritmom vyvinutým v tejto práci Druhá časť práce sa zameriava na exploratívnu analýzu pojednávaní súdu a následným výberom atribútov modelu. Na základe jej výsledkov sú natrénované modely využívajúce jeden z troch odlišných klasifikátorov a niektorú z podmnožín možných atribútov modelu. Následne sú navzájom porovnávané, aby sa skúmal dopad jednotlivých NLP techník na ich výsledky.

This thesis uses simple NLP techniques to train a model that is capable to predict outcome of a case heard in the US Supreme Court based on analysis of its Oral Argument. It attempts to demonstrate that simple NLP techniques perform comparatively well when used on complex tasks. Therefore, models in both parts of the thesis prefer them. The first part of the thesis focuses on training a simple domain-independent sentence-level sentiment model. This model is trained on MPQA corpus, because it contains manually annoted documents from multiple domains. The dataset is ranked by custom ranking algorithm developed in the thesis. Second part of the thesis focuses on exploration analysis of the Oral Arguments and feature selection. Based on its results, models using one of the three different classifiers and several feature sets are trained. They are compared against each other to assess effect of the simple NLP features on their performance.