Využití strojového učení pro porovnávání pracovních nabídek a životopisů
A Machine Learning Approach for Job Posting and CV Alignment
Type of document
bakalářská prácebachelor thesis
Author
Karolina Zegeryte
Supervisor
Kovalenko Alexander
Opponent
Čepek Miroslav
Field of study
Znalostní inženýrstvíStudy program
Informatika, platnost do 2024Institutions assigning rank
katedra aplikované matematikyRights
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmlVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.html
Metadata
Show full item recordAbstract
Hlavním cílem bakalářské práce je vyvinout komplexní model strojového učení, který je navržen k normalizaci reprezentace dovedností v pracovních inzerátech a životopisech. Vyvinutý systém usnadňuje hladší a efektivnější náborový proces tím, že účinně řeší nesrovnalosti v tom, jak jsou dovednosti a zkušenosti prezentovány v pracovních inzerátech a životopisech. Toto zlepšení významně snižuje možné nesoulady mezi uchazeči o zaměstnání a personalisty. Metodologie zahrnuje shromažďování a předzpracování rozsáhlého datového souboru, který zahrnuje různé pracovní inzeráty a životopisy. Vzhledem k absenci snadno dostupných tréninkových, testovacích a validačních dat ve veřejné doméně je nutné ručně vytvořit vhodný dataset pro doladění předem naučených jazykových modelů. Pro tyto účely budou vybrána a zpracována jak reálná, tak generovaná data. Systém využívá techniky strojového učení k extrakci dovedností z textu kombinací předem naučeného jazykového modelu BERT a předem naučeného SpaCy modelu. Oba modely musí být doladěny na ručně sestaveném datasetu. Po extrakci dovedností je systém sloučí na základě kosinové podobnosti, a výstupu z transformátorů pro efektivnější porovnání. Tyto techniky pomáhají normalizovat a sladit extrahované dovednosti se standardizovanými reprezentacemi dovedností. Navíc studie navrhuje vývoj algoritmů pro párování, které využívají metriky podobnosti a techniky hlubokého učení k přesnému sladění pracovních inzerátů s odpovídajícími životopisy na základě standardizovaných reprezentací dovedností. Po normalizaci dovedností v životopisech a pracovních inzerátech budou aplikovány algoritmy jako Jaccardův index podobnosti, kosinová podobnost a transformátory, aby se životopisy sladily s pracovními nabídkami. Výkon těchto modelů bude hodnocen pomocí metrik, jako jsou přesnost, úplnost, správnost, ztráta a skóre F1. The main goal of this Bachelor's thesis is to develop a comprehensive and reliable Machine Learning model designed to normalize the representation of skills in job postings and resumes. The developed system facilitates smoother and more efficient recruitment processes by effectively addressing the discrepancies in how skills and experiences are represented in job advertisements and resumes. This improvement significantly reduces the potential misalignment between job seekers and recruiters. The methodology involves collecting and preprocessing a substantial dataset comprising diverse job postings and resumes. Given the absence of readily available training, testing, and validation data in the public domain, there is a need to manually curate a suitable dataset to fine-tune pre-trained Language Models (LMs). Both real and generated data will be selected and processed for these purposes. The system utilizes Machine Learning techniques to extract skills from text by combining one pre-trained LM BERT and one pre-trained model from SpaCy. Both of the models should be fine-tuned on a curated dataset. After the skills are extracted, the system merges them based on Similarity Metrics and Transformers' predictions for more efficient comparison. These techniques help normalize and match the extracted skills with standardized skill representations. Additionally, the study proposes the development of matching algorithms that leverage Similarity Metrics and Deep Learning techniques to accurately align job postings with corresponding resumes based on standardized skill representations. After the normalization of skills in resumes and job postings, algorithms such as Jaccard Similarity, Cosine Similarity, and Transformers will be applied to match resumes with job vacancies. The performance of these models will be evaluated using metrics including Precision, Recall, Accuracy, Loss, and F1 Score.
Collections
- Bakalářské práce - 18105 [299]