From Collaborative to Content-Based: Scaling Autoencoders to Train Transformers in Recommender Systems
Od kolaborativního ke content-based filtrování: škálování autoenkodérů pro trénink transformerů v doporučovacích systémech
Authors
Supervisors
Reviewers
Editors
Other contributors
Journal Title
Journal ISSN
Volume Title
Publisher
České vysoké učení technické v Praze
Czech Technical University in Prague
Czech Technical University in Prague
Date of defense
2025-09-03
Abstract
Doporučovací systémy hrají zásadní roli při správě a personalizaci obrovského množství dat napříč doménami, jako jsou internetové obchody, multimediální platformy a sociální média. Tato práce se zabývá dvěma kritickými výzvami v moderních doporučovacích systémech: škálovatelností lineárních modelů a integrací interakční a atributové podobnosti pomocí architektury Transformer.
V návaznosti na Embarassingly Shallow Autoencoder (EASE) představuje ELSA, škálo- vatelnou variantu EASE, směřující k překonání omezení EASE na datasetech s velkým kata- logem. Využitím faktorizace matice vah a optimalizace založené na gradientním sestupu prokazuje ELSA pozoruhodnou škálovatelnost a použitelnost na reálná data v průmyslové praxi.
Druhá část práce rozšiřuje použití ELSA pro trénink modelů založených na architektuře Transformer a představuje beeFormer, framework pro trénink Trnsformerů na interačních datech. beeFormer efektivně kombinuje interakční data s popisy a obrázky produktů, což vede k lepším doporučením v porovnání nejen s attributovými modely, ale i tradičním kolaborativním filtrováním.
Práce se dále zaměřuje na doporučování napříč různými doménami a odhaluje potenciál modelů Transformer pro přenos znalostí při doporučování napříč oblastmi, jako jsou knihy, filmy nebo móda. Rovněž ukazuje, že využití popisů generovaných pomocí modelů typu Large Language Model (LLM) významně zlepšuje kvalitu doporučení napříč jednotlivými doménami.
Recommender systems play a pivotal role in managing and personalizing vast amounts of data across domains such as e-commerce, entertainment, and social media. This thesis addresses two critical challenges in modern recommender systems: scalability in linear shallow autoencoders and the integration of semantic and interaction-based similarities using Transformer architectures. Building on the Embarrassingly Shallow Autoencoder (EASE), we introduce ELSA, a scalable linear shallow autoencoder designed to overcome the limitations of EASE on datasets with a large number of items. By leveraging a low-rank decomposition of the weight matrix and gradient descent-based optimization, ELSA demonstrates remarkable scalability and applicability to industrial-scale datasets. The second contribution extends ELSA to Transformer architectures, resulting in the development of beeFormer, a framework that effectively combines interaction data with semantic and vision representations. We demostrate, that training Transformers with interaction data can transfer knowledge between datasets while outperforming not only semantic similarity-based Transformers but also traditional collaborative filtering methods. Additionally, the thesis explores cross-domain recommendation, revealing the potential of Transformer models to transfer knowledge between domains like books, movies, and fashion. The use of Large Language Model (LLM)-generated descriptions is shown to improve cross-domain recommendations.
Recommender systems play a pivotal role in managing and personalizing vast amounts of data across domains such as e-commerce, entertainment, and social media. This thesis addresses two critical challenges in modern recommender systems: scalability in linear shallow autoencoders and the integration of semantic and interaction-based similarities using Transformer architectures. Building on the Embarrassingly Shallow Autoencoder (EASE), we introduce ELSA, a scalable linear shallow autoencoder designed to overcome the limitations of EASE on datasets with a large number of items. By leveraging a low-rank decomposition of the weight matrix and gradient descent-based optimization, ELSA demonstrates remarkable scalability and applicability to industrial-scale datasets. The second contribution extends ELSA to Transformer architectures, resulting in the development of beeFormer, a framework that effectively combines interaction data with semantic and vision representations. We demostrate, that training Transformers with interaction data can transfer knowledge between datasets while outperforming not only semantic similarity-based Transformers but also traditional collaborative filtering methods. Additionally, the thesis explores cross-domain recommendation, revealing the potential of Transformer models to transfer knowledge between domains like books, movies, and fashion. The use of Large Language Model (LLM)-generated descriptions is shown to improve cross-domain recommendations.
Description
Keywords
Doporučovací Sytémy, Autoenkodéry, Lineární modely, Implicitní feedback, Velká data, Text mining, Embeddingy, Cold-start doporučování, Zero-shot doporučování, Recommender systems, Shallow autoencoders, Linear models, Implicit feedback recommendation, Large-scale dataset, Text mining, Sentence embeddings, Cold-start recommendation, Zero-shot recommendation
Citation
Underlying research data set URL
Permanent link
Rights/License
Vysokoškolská závěrečná práce je dílo chráněné autorským zákonem. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem v platném znění.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.
A university thesis is a work protected by the Copyright Act of the Czech Republic. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one`s own expense. The use of thesis should be in compliance with the Copyright Act.