Zobrazit minimální záznam

A Machine Learning Approach for Job Posting and CV Alignment



dc.contributor.advisorKovalenko Alexander
dc.contributor.authorKarolina Zegeryte
dc.date.accessioned2024-11-21T23:51:58Z
dc.date.available2024-11-21T23:51:58Z
dc.date.issued2024-11-21
dc.identifierKOS-1248957338305
dc.identifier.urihttp://hdl.handle.net/10467/119474
dc.description.abstractHlavním cílem bakalářské práce je vyvinout komplexní model strojového učení, který je navržen k normalizaci reprezentace dovedností v pracovních inzerátech a životopisech. Vyvinutý systém usnadňuje hladší a efektivnější náborový proces tím, že účinně řeší nesrovnalosti v tom, jak jsou dovednosti a zkušenosti prezentovány v pracovních inzerátech a životopisech. Toto zlepšení významně snižuje možné nesoulady mezi uchazeči o zaměstnání a personalisty. Metodologie zahrnuje shromažďování a předzpracování rozsáhlého datového souboru, který zahrnuje různé pracovní inzeráty a životopisy. Vzhledem k absenci snadno dostupných tréninkových, testovacích a validačních dat ve veřejné doméně je nutné ručně vytvořit vhodný dataset pro doladění předem naučených jazykových modelů. Pro tyto účely budou vybrána a zpracována jak reálná, tak generovaná data. Systém využívá techniky strojového učení k extrakci dovedností z textu kombinací předem naučeného jazykového modelu BERT a předem naučeného SpaCy modelu. Oba modely musí být doladěny na ručně sestaveném datasetu. Po extrakci dovedností je systém sloučí na základě kosinové podobnosti, a výstupu z transformátorů pro efektivnější porovnání. Tyto techniky pomáhají normalizovat a sladit extrahované dovednosti se standardizovanými reprezentacemi dovedností. Navíc studie navrhuje vývoj algoritmů pro párování, které využívají metriky podobnosti a techniky hlubokého učení k přesnému sladění pracovních inzerátů s odpovídajícími životopisy na základě standardizovaných reprezentací dovedností. Po normalizaci dovedností v životopisech a pracovních inzerátech budou aplikovány algoritmy jako Jaccardův index podobnosti, kosinová podobnost a transformátory, aby se životopisy sladily s pracovními nabídkami. Výkon těchto modelů bude hodnocen pomocí metrik, jako jsou přesnost, úplnost, správnost, ztráta a skóre F1.cze
dc.description.abstractThe main goal of this Bachelor's thesis is to develop a comprehensive and reliable Machine Learning model designed to normalize the representation of skills in job postings and resumes. The developed system facilitates smoother and more efficient recruitment processes by effectively addressing the discrepancies in how skills and experiences are represented in job advertisements and resumes. This improvement significantly reduces the potential misalignment between job seekers and recruiters. The methodology involves collecting and preprocessing a substantial dataset comprising diverse job postings and resumes. Given the absence of readily available training, testing, and validation data in the public domain, there is a need to manually curate a suitable dataset to fine-tune pre-trained Language Models (LMs). Both real and generated data will be selected and processed for these purposes. The system utilizes Machine Learning techniques to extract skills from text by combining one pre-trained LM BERT and one pre-trained model from SpaCy. Both of the models should be fine-tuned on a curated dataset. After the skills are extracted, the system merges them based on Similarity Metrics and Transformers' predictions for more efficient comparison. These techniques help normalize and match the extracted skills with standardized skill representations. Additionally, the study proposes the development of matching algorithms that leverage Similarity Metrics and Deep Learning techniques to accurately align job postings with corresponding resumes based on standardized skill representations. After the normalization of skills in resumes and job postings, algorithms such as Jaccard Similarity, Cosine Similarity, and Transformers will be applied to match resumes with job vacancies. The performance of these models will be evaluated using metrics including Precision, Recall, Accuracy, Loss, and F1 Score.eng
dc.publisherČeské vysoké učení technické v Praze. Vypočetní a informační centrum.cze
dc.publisherCzech Technical University in Prague. Computing and Information Centre.eng
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics http://knihovny.cvut.cz/vychova/vskp.htmleng
dc.rightsVysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem http://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou http://knihovny.cvut.cz/vychova/vskp.htmlcze
dc.subjectjazykové modelycze
dc.subjectstrojové učenícze
dc.subjectzpracování přirozeného jazykacze
dc.subjecthluboké učenícze
dc.subjectmetriky podobnosticze
dc.subjectembeddingcze
dc.subjectJaccardův index podobnosticze
dc.subjectkosinová podobnostcze
dc.subjecttransformátorcze
dc.subjectpřesnostcze
dc.subjectúplnostcze
dc.subjectskóre F1cze
dc.subjectsprávnostcze
dc.subjectztátacze
dc.subjectnormalizace dovednostícze
dc.subjectmodel párovánícze
dc.subjectlanguage modelseng
dc.subjectmachine learningeng
dc.subjectnatural language processingeng
dc.subjectdeep learningeng
dc.subjectsimilarity metricseng
dc.subjectembeddingeng
dc.subjectJaccard similarityeng
dc.subjectcosine similarityeng
dc.subjecttransformereng
dc.subjectprecisioneng
dc.subjectrecalleng
dc.subjectF1 scoreeng
dc.subjectaccuracyeng
dc.subjectlosseng
dc.subjectskills normalizationeng
dc.subjectmatching modeleng
dc.titleVyužití strojového učení pro porovnávání pracovních nabídek a životopisůcze
dc.titleA Machine Learning Approach for Job Posting and CV Alignmenteng
dc.typebakalářská prácecze
dc.typebachelor thesiseng
dc.contributor.refereeČepek Miroslav
theses.degree.disciplineZnalostní inženýrstvícze
theses.degree.grantorkatedra aplikované matematikycze
theses.degree.programmeInformatika, platnost do 2024cze


Soubory tohoto záznamu





Tento záznam se objevuje v následujících kolekcích

Zobrazit minimální záznam