Natural Language Inference Models with Explanations
Modely Natural Language Inference s vysvětlením
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date
Abstract
V posledních letech předtrénované textové klasifikátory založené na architektuře Transformer a doladěné na úlohu Natural Language Inference (NLI) vykazují na řadě NLI datasetů výkonnost na úrovni člověka. Od vydání ChatGPT na konci roku 2022 se využívání velkých jazykových modelů (anglicky Large Language Models, LLMs) jako chatovacích asistentů stalo všudypřítomným. Můžeme používat výkonné LLMy s miliardami parametrů prostřednictvím cloudových API nebo provozovat menší modely lokálně. Když je LLM požádán, aby vyřešil klasifikační úlohu, vygeneruje text, který obsahuje predikovanou kategorii. Na rozdíl od běžného klasifikátoru však může být také vyzván, aby vygeneroval vysvětlení v přirozeném jazyce (anglicky Natural Language Explanation, NLE), jímž odůvodní své rozhodnutí. V této práci budu 1) porovnávat účinky různých metod promptování na výkon state-of-the-art menších lokálních LLM na několika populárních NLI datasetech a 2) zkoumat metody hodnocení důslednosti vysvětlení a odpovědí generovaných modelem.
In the recent years pretrained neural text classifiers based on Transformer architecture and fine-tuned on the downstream task of Natural Language Inference (NLI) have shown human-level performance on a number of NLI datasets. And since the release of ChatGPT in late 2022 utilising Large Language Models (LLMs) as chat-based assistants became ubiquitous. We can use powerful LLMs with hundreds of billions of parameters through cloud APIs or run smaller ones locally. When asked to solve a classification task and given the answer options, an LLM will generate a text which contains the label. But unlike a usual classifier, it can also be prompted to generate a Natural Language Explanation (NLE) justifying its decision. In this thesis I will 1) compare the effects of various prompting methods on the performance of state-of-the-art small local LLMs across several popular NLI datasets and 2) explore the methods of assessing the consistency of the explanations and the labels generated by the model.
In the recent years pretrained neural text classifiers based on Transformer architecture and fine-tuned on the downstream task of Natural Language Inference (NLI) have shown human-level performance on a number of NLI datasets. And since the release of ChatGPT in late 2022 utilising Large Language Models (LLMs) as chat-based assistants became ubiquitous. We can use powerful LLMs with hundreds of billions of parameters through cloud APIs or run smaller ones locally. When asked to solve a classification task and given the answer options, an LLM will generate a text which contains the label. But unlike a usual classifier, it can also be prompted to generate a Natural Language Explanation (NLE) justifying its decision. In this thesis I will 1) compare the effects of various prompting methods on the performance of state-of-the-art small local LLMs across several popular NLI datasets and 2) explore the methods of assessing the consistency of the explanations and the labels generated by the model.