2025
SIGIR 2025 · arXiv 2504.04400
多 Tokenizer 预训练
Semantic ID
MTGRec:多标识符 Item Tokenization + 课程学习预训练
Pre-training Generative Recommender with Multi-Identifier Item Tokenization · Zheng, Liu et al. · RUC + Huawei
现有生成式推荐 one-to-one tokenization 导致长尾 token 曝光不足、数据多样性差。MTGRec 从 RQ-VAE 训练过程取相邻 epoch 的多个 checkpoint 作为语义相关的多个 tokenizer,将单条用户序列扩增为多组 token 序列用于预训练。引入基于一阶梯度近似的数据影响力估计,动态调整各 tokenizer 数据的采样概率(课程学习)。微调时固定单一 tokenizer 保证 item 可识别。Amazon 三数据集超越 TIGER/LETTER/TIGER++,在长尾 item 改善尤其显著。