From Collaborative to Content-Based: Scaling Autoencoders to Train Transformers in Recommender Systems

dc.contributor.advisor Kordík, Pavel
dc.contributor.author Vančura, Vojtěch
dc.contributor.referee Peška, Ladislav
dc.contributor.referee Bieliková, Mária
dc.contributor.referee Marras, Mirko
dc.date.accepted 2025-09-03
dc.date.accessioned 2025-09-17T13:19:47Z
dc.date.available 2025-09-17T13:19:47Z
dc.date.issued 2025-01-29
dc.description.abstract Doporučovací systémy hrají zásadní roli při správě a personalizaci obrovského množství dat napříč doménami, jako jsou internetové obchody, multimediální platformy a sociální média. Tato práce se zabývá dvěma kritickými výzvami v moderních doporučovacích systémech: škálovatelností lineárních modelů a integrací interakční a atributové podobnosti pomocí architektury Transformer. V návaznosti na Embarassingly Shallow Autoencoder (EASE) představuje ELSA, škálo- vatelnou variantu EASE, směřující k překonání omezení EASE na datasetech s velkým kata- logem. Využitím faktorizace matice vah a optimalizace založené na gradientním sestupu prokazuje ELSA pozoruhodnou škálovatelnost a použitelnost na reálná data v průmyslové praxi. Druhá část práce rozšiřuje použití ELSA pro trénink modelů založených na architektuře Transformer a představuje beeFormer, framework pro trénink Trnsformerů na interačních datech. beeFormer efektivně kombinuje interakční data s popisy a obrázky produktů, což vede k lepším doporučením v porovnání nejen s attributovými modely, ale i tradičním kolaborativním filtrováním. Práce se dále zaměřuje na doporučování napříč různými doménami a odhaluje potenciál modelů Transformer pro přenos znalostí při doporučování napříč oblastmi, jako jsou knihy, filmy nebo móda. Rovněž ukazuje, že využití popisů generovaných pomocí modelů typu Large Language Model (LLM) významně zlepšuje kvalitu doporučení napříč jednotlivými doménami. cs
dc.description.abstract Recommender systems play a pivotal role in managing and personalizing vast amounts of data across domains such as e-commerce, entertainment, and social media. This thesis addresses two critical challenges in modern recommender systems: scalability in linear shallow autoencoders and the integration of semantic and interaction-based similarities using Transformer architectures. Building on the Embarrassingly Shallow Autoencoder (EASE), we introduce ELSA, a scalable linear shallow autoencoder designed to overcome the limitations of EASE on datasets with a large number of items. By leveraging a low-rank decomposition of the weight matrix and gradient descent-based optimization, ELSA demonstrates remarkable scalability and applicability to industrial-scale datasets. The second contribution extends ELSA to Transformer architectures, resulting in the development of beeFormer, a framework that effectively combines interaction data with semantic and vision representations. We demostrate, that training Transformers with interaction data can transfer knowledge between datasets while outperforming not only semantic similarity-based Transformers but also traditional collaborative filtering methods. Additionally, the thesis explores cross-domain recommendation, revealing the potential of Transformer models to transfer knowledge between domains like books, movies, and fashion. The use of Large Language Model (LLM)-generated descriptions is shown to improve cross-domain recommendations. en
dc.identifier KOS-1196135113105
dc.identifier.uri http://hdl.handle.net/10467/126812
dc.language.iso eng
dc.publisher České vysoké učení technické v Praze cs
dc.publisher Czech Technical University in Prague en
dc.rights Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění. cs
dc.rights A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act. en
dc.subject Doporučovací Sytémy cs
dc.subject Autoenkodéry cs
dc.subject Lineární modely cs
dc.subject Implicitní feedback cs
dc.subject Velká data cs
dc.subject Text mining cs
dc.subject Embeddingy cs
dc.subject Cold-start doporučování cs
dc.subject Zero-shot doporučování cs
dc.subject Recommender systems en
dc.subject Shallow autoencoders en
dc.subject  Linear models en
dc.subject Implicit feedback recommendation en
dc.subject Large-scale dataset en
dc.subject Text mining en
dc.subject Sentence embeddings en
dc.subject Cold-start recommendation en
dc.subject Zero-shot recommendation en
dc.title Od kolaborativního ke content-based filtrování: škálování autoenkodérů pro trénink transformerů v doporučovacích systémech cs
dc.title From Collaborative to Content-Based: Scaling Autoencoders to Train Transformers in Recommender Systems en
dc.type doctoral thesis en
dspace.entity.type Publication
relation.isAdvisorOfPublication 89151d71-aa84-441c-b049-096a1b4971cf
relation.isAdvisorOfPublication.latestForDiscovery 89151d71-aa84-441c-b049-096a1b4971cf
relation.isAuthorOfPublication c6e5ab8c-13f4-40c7-b1f4-8cd319ddab61
relation.isAuthorOfPublication.latestForDiscovery c6e5ab8c-13f4-40c7-b1f4-8cd319ddab61
theses.degree.grantor katedra aplikované matematiky cs
theses.degree.programme Informatika cs

Files

Original bundle

Now showing 1 - 5 of 5
Name:
F8-D-2025-Vancura-Vojtech-Recomdissertation-final.pdf
Size:
3.38 MB
Format:
Adobe Portable Document Format
Description:
THESIS
Access level:
OPEN
Access rights:
openly accessible
Name:
Posudek-Bielikova.pdf
Size:
201.74 KB
Format:
Adobe Portable Document Format
Description:
REVIEW
Access level:
OPEN
Access rights:
openly accessible
Name:
Posudek_Vancura (1).pdf
Size:
62.68 KB
Format:
Adobe Portable Document Format
Description:
REVIEW
Access level:
OPEN
Access rights:
openly accessible
Name:
Posudek-Marras.pdf
Size:
318.64 KB
Format:
Adobe Portable Document Format
Description:
REVIEW
Access level:
OPEN
Access rights:
openly accessible
Name:
Posudek-vojta-vancura.pdf
Size:
55.98 KB
Format:
Adobe Portable Document Format
Description:
REVIEW
Access level:
OPEN
Access rights:
openly accessible