Využití strojového učení pro porovnávání pracovních nabídek a životopisů
A Machine Learning Approach for Job Posting and CV Alignment
dc.contributor.advisor | Kovalenko Alexander | |
dc.contributor.author | Karolina Zegeryte | |
dc.date.accessioned | 2024-11-21T23:51:58Z | |
dc.date.available | 2024-11-21T23:51:58Z | |
dc.date.issued | 2024-11-21 | |
dc.identifier | KOS-1248957338305 | |
dc.identifier.uri | http://hdl.handle.net/10467/119474 | |
dc.description.abstract | Hlavním cílem bakalářské práce je vyvinout komplexní model strojového učení, který je navržen k normalizaci reprezentace dovedností v pracovních inzerátech a životopisech. Vyvinutý systém usnadňuje hladší a efektivnější náborový proces tím, že účinně řeší nesrovnalosti v tom, jak jsou dovednosti a zkušenosti prezentovány v pracovních inzerátech a životopisech. Toto zlepšení významně snižuje možné nesoulady mezi uchazeči o zaměstnání a personalisty. Metodologie zahrnuje shromažďování a předzpracování rozsáhlého datového souboru, který zahrnuje různé pracovní inzeráty a životopisy. Vzhledem k absenci snadno dostupných tréninkových, testovacích a validačních dat ve veřejné doméně je nutné ručně vytvořit vhodný dataset pro doladění předem naučených jazykových modelů. Pro tyto účely budou vybrána a zpracována jak reálná, tak generovaná data. Systém využívá techniky strojového učení k extrakci dovedností z textu kombinací předem naučeného jazykového modelu BERT a předem naučeného SpaCy modelu. Oba modely musí být doladěny na ručně sestaveném datasetu. Po extrakci dovedností je systém sloučí na základě kosinové podobnosti, a výstupu z transformátorů pro efektivnější porovnání. Tyto techniky pomáhají normalizovat a sladit extrahované dovednosti se standardizovanými reprezentacemi dovedností. Navíc studie navrhuje vývoj algoritmů pro párování, které využívají metriky podobnosti a techniky hlubokého učení k přesnému sladění pracovních inzerátů s odpovídajícími životopisy na základě standardizovaných reprezentací dovedností. Po normalizaci dovedností v životopisech a pracovních inzerátech budou aplikovány algoritmy jako Jaccardův index podobnosti, kosinová podobnost a transformátory, aby se životopisy sladily s pracovními nabídkami. Výkon těchto modelů bude hodnocen pomocí metrik, jako jsou přesnost, úplnost, správnost, ztráta a skóre F1. | cze |
dc.description.abstract | The main goal of this Bachelor's thesis is to develop a comprehensive and reliable Machine Learning model designed to normalize the representation of skills in job postings and resumes. The developed system facilitates smoother and more efficient recruitment processes by effectively addressing the discrepancies in how skills and experiences are represented in job advertisements and resumes. This improvement significantly reduces the potential misalignment between job seekers and recruiters. The methodology involves collecting and preprocessing a substantial dataset comprising diverse job postings and resumes. Given the absence of readily available training, testing, and validation data in the public domain, there is a need to manually curate a suitable dataset to fine-tune pre-trained Language Models (LMs). Both real and generated data will be selected and processed for these purposes. The system utilizes Machine Learning techniques to extract skills from text by combining one pre-trained LM BERT and one pre-trained model from SpaCy. Both of the models should be fine-tuned on a curated dataset. After the skills are extracted, the system merges them based on Similarity Metrics and Transformers' predictions for more efficient comparison. These techniques help normalize and match the extracted skills with standardized skill representations. Additionally, the study proposes the development of matching algorithms that leverage Similarity Metrics and Deep Learning techniques to accurately align job postings with corresponding resumes based on standardized skill representations. After the normalization of skills in resumes and job postings, algorithms such as Jaccard Similarity, Cosine Similarity, and Transformers will be applied to match resumes with job vacancies. The performance of these models will be evaluated using metrics including Precision, Recall, Accuracy, Loss, and F1 Score. | eng |
dc.publisher | České vysoké učení technické v Praze. Vypočetní a informační centrum. | cze |
dc.publisher | Czech Technical University in Prague. Computing and Information Centre. | eng |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.html | eng |
dc.rights | Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html | cze |
dc.subject | jazykové modely | cze |
dc.subject | strojové učení | cze |
dc.subject | zpracování přirozeného jazyka | cze |
dc.subject | hluboké učení | cze |
dc.subject | metriky podobnosti | cze |
dc.subject | embedding | cze |
dc.subject | Jaccardův index podobnosti | cze |
dc.subject | kosinová podobnost | cze |
dc.subject | transformátor | cze |
dc.subject | přesnost | cze |
dc.subject | úplnost | cze |
dc.subject | skóre F1 | cze |
dc.subject | správnost | cze |
dc.subject | ztáta | cze |
dc.subject | normalizace dovedností | cze |
dc.subject | model párování | cze |
dc.subject | language models | eng |
dc.subject | machine learning | eng |
dc.subject | natural language processing | eng |
dc.subject | deep learning | eng |
dc.subject | similarity metrics | eng |
dc.subject | embedding | eng |
dc.subject | Jaccard similarity | eng |
dc.subject | cosine similarity | eng |
dc.subject | transformer | eng |
dc.subject | precision | eng |
dc.subject | recall | eng |
dc.subject | F1 score | eng |
dc.subject | accuracy | eng |
dc.subject | loss | eng |
dc.subject | skills normalization | eng |
dc.subject | matching model | eng |
dc.title | Využití strojového učení pro porovnávání pracovních nabídek a životopisů | cze |
dc.title | A Machine Learning Approach for Job Posting and CV Alignment | eng |
dc.type | bakalářská práce | cze |
dc.type | bachelor thesis | eng |
dc.contributor.referee | Čepek Miroslav | |
theses.degree.discipline | Znalostní inženýrství | cze |
theses.degree.grantor | katedra aplikované matematiky | cze |
theses.degree.programme | Informatika, platnost do 2024 | cze |
Soubory tohoto záznamu
Tento záznam se objevuje v následujících kolekcích
-
Bakalářské práce - 18105 [300]