Využití strojového učení pro porovnávání pracovních nabídek a životopisů

Karolina Zegeryte

A Machine Learning Approach for Job Posting and CV Alignment

dc.contributor.advisor	Kovalenko Alexander
dc.contributor.author	Karolina Zegeryte
dc.date.accessioned	2024-11-21T23:51:58Z
dc.date.available	2024-11-21T23:51:58Z
dc.date.issued	2024-11-21
dc.identifier	KOS-1248957338305
dc.identifier.uri	http://hdl.handle.net/10467/119474
dc.description.abstract	Hlavním cílem bakalářské práce je vyvinout komplexní model strojového učení, který je navržen k normalizaci reprezentace dovedností v pracovních inzerátech a životopisech. Vyvinutý systém usnadňuje hladší a efektivnější náborový proces tím, že účinně řeší nesrovnalosti v tom, jak jsou dovednosti a zkušenosti prezentovány v pracovních inzerátech a životopisech. Toto zlepšení významně snižuje možné nesoulady mezi uchazeči o zaměstnání a personalisty. Metodologie zahrnuje shromažďování a předzpracování rozsáhlého datového souboru, který zahrnuje různé pracovní inzeráty a životopisy. Vzhledem k absenci snadno dostupných tréninkových, testovacích a validačních dat ve veřejné doméně je nutné ručně vytvořit vhodný dataset pro doladění předem naučených jazykových modelů. Pro tyto účely budou vybrána a zpracována jak reálná, tak generovaná data. Systém využívá techniky strojového učení k extrakci dovedností z textu kombinací předem naučeného jazykového modelu BERT a předem naučeného SpaCy modelu. Oba modely musí být doladěny na ručně sestaveném datasetu. Po extrakci dovedností je systém sloučí na základě kosinové podobnosti, a výstupu z transformátorů pro efektivnější porovnání. Tyto techniky pomáhají normalizovat a sladit extrahované dovednosti se standardizovanými reprezentacemi dovedností. Navíc studie navrhuje vývoj algoritmů pro párování, které využívají metriky podobnosti a techniky hlubokého učení k přesnému sladění pracovních inzerátů s odpovídajícími životopisy na základě standardizovaných reprezentací dovedností. Po normalizaci dovedností v životopisech a pracovních inzerátech budou aplikovány algoritmy jako Jaccardův index podobnosti, kosinová podobnost a transformátory, aby se životopisy sladily s pracovními nabídkami. Výkon těchto modelů bude hodnocen pomocí metrik, jako jsou přesnost, úplnost, správnost, ztráta a skóre F1.	cze
dc.description.abstract	The main goal of this Bachelor's thesis is to develop a comprehensive and reliable Machine Learning model designed to normalize the representation of skills in job postings and resumes. The developed system facilitates smoother and more efficient recruitment processes by effectively addressing the discrepancies in how skills and experiences are represented in job advertisements and resumes. This improvement significantly reduces the potential misalignment between job seekers and recruiters. The methodology involves collecting and preprocessing a substantial dataset comprising diverse job postings and resumes. Given the absence of readily available training, testing, and validation data in the public domain, there is a need to manually curate a suitable dataset to fine-tune pre-trained Language Models (LMs). Both real and generated data will be selected and processed for these purposes. The system utilizes Machine Learning techniques to extract skills from text by combining one pre-trained LM BERT and one pre-trained model from SpaCy. Both of the models should be fine-tuned on a curated dataset. After the skills are extracted, the system merges them based on Similarity Metrics and Transformers' predictions for more efficient comparison. These techniques help normalize and match the extracted skills with standardized skill representations. Additionally, the study proposes the development of matching algorithms that leverage Similarity Metrics and Deep Learning techniques to accurately align job postings with corresponding resumes based on standardized skill representations. After the normalization of skills in resumes and job postings, algorithms such as Jaccard Similarity, Cosine Similarity, and Transformers will be applied to match resumes with job vacancies. The performance of these models will be evaluated using metrics including Precision, Recall, Accuracy, Loss, and F1 Score.	eng
dc.publisher	České vysoké učení technické v Praze. Vypočetní a informační centrum.	cze
dc.publisher	Czech Technical University in Prague. Computing and Information Centre.	eng
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html	eng
dc.rights	Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html	cze
dc.subject	jazykové modely	cze
dc.subject	strojové učení	cze
dc.subject	zpracování přirozeného jazyka	cze
dc.subject	hluboké učení	cze
dc.subject	metriky podobnosti	cze
dc.subject	embedding	cze
dc.subject	Jaccardův index podobnosti	cze
dc.subject	kosinová podobnost	cze
dc.subject	transformátor	cze
dc.subject	přesnost	cze
dc.subject	úplnost	cze
dc.subject	skóre F1	cze
dc.subject	správnost	cze
dc.subject	ztáta	cze
dc.subject	normalizace dovedností	cze
dc.subject	model párování	cze
dc.subject	language models	eng
dc.subject	machine learning	eng
dc.subject	natural language processing	eng
dc.subject	deep learning	eng
dc.subject	similarity metrics	eng
dc.subject	embedding	eng
dc.subject	Jaccard similarity	eng
dc.subject	cosine similarity	eng
dc.subject	transformer	eng
dc.subject	precision	eng
dc.subject	recall	eng
dc.subject	F1 score	eng
dc.subject	accuracy	eng
dc.subject	loss	eng
dc.subject	skills normalization	eng
dc.subject	matching model	eng
dc.title	Využití strojového učení pro porovnávání pracovních nabídek a životopisů	cze
dc.title	A Machine Learning Approach for Job Posting and CV Alignment	eng
dc.type	bakalářská práce	cze
dc.type	bachelor thesis	eng
dc.contributor.referee	Čepek Miroslav
theses.degree.discipline	Znalostní inženýrství	cze
theses.degree.grantor	katedra aplikované matematiky	cze
theses.degree.programme	Informatika, platnost do 2024	cze

Soubory tohoto záznamu

Název:: F8-BP-2024-Zegeryte-Karolina-B ...
Velikost:: 683.4Kb
Formát:: PDF
Popis:: PLNY_TEXT
: Zobrazit/otevřít

Název:: F8-BP-2024-Zegeryte-Karolina-p ...
Velikost:: 493.3Kb
Formát:: Neznámý
Popis:: PRILOHA
: Zobrazit/otevřít

Název:: F8-BP-2024-posudek-Cepek_Miros ...
Velikost:: 832.4Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Název:: F8-BP-2024-posudek-Kovalenko_A ...
Velikost:: 220.6Kb
Formát:: PDF
Popis:: POSUDEK
: Zobrazit/otevřít

Tento záznam se objevuje v následujících kolekcích

Bakalářské práce - 18105 [308]

Zobrazit minimální záznam